发布时间:2018-07-05
1、搜索引擎的具体优化规则是什么?
此类问题实际上很宽泛,相当于问“SEO怎么做?”这边用图片大概讲解一下抓取规则
搜索引擎从用户搜索到最终搜索结果展现的步骤是(以百度为例):
抓取,百度都不知道你的网站,如何让你有排名呢?所以要让百度知道你,就要先通过抓取这个步骤;
过滤,过滤掉低质量的页面内容;
索引,只有合格的页面才会被存储;
处理,对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。
排名,将高质量的页面展现给用户;
蜘蛛(Spider):
被搜索引擎派出能在网上发现新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;
蜘蛛对一个站点的遍历抓取策略分深度优先和广度优先两种。
spider抓取的基本过程:
根据爬取目标和范围,可分为 批量性爬虫:明确的抓取目标和范围,达到即停止; 增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应,通用商业引擎一般都是这类; 垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;
百度官方 spider抓取过程中的策略
1、抓取友好性,同一个站点在一段时间内的抓取频率和一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。
2、常用抓取返回码,如503,404,403,301等;
3、多种url重定向的识别,如http 30x、meta refresh重定向和js重定向,Canonical标签也可看做变相的重定向;
4、抓取优先级调配,如深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、大站优先策略等;
5、重复url的过滤,包括url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法抓取到的数据,如存在于网络数据库中,或由于网络环境、网站本身不符合规范、孤岛等问题而造成的无法被抓取,如百度的“阿拉丁”计划;
7、抓取反作弊,抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等;
蜘蛛不能/不喜欢抓取的内容:
四种近似重复网页类型:
常州顶尖SEO团队专业发布网站建设、常州做网站等SEO资讯、建站信息,欢迎资讯!