系统集成论坛
标题:
百度爬虫抓取因素之服务器的连通性
[打印本页]
作者:
艾米Aimee
时间:
2016-5-26 14:36
标题:
百度爬虫抓取因素之服务器的连通性
第一,服务的稳定 ①如果服务器不稳定会有一个什么样的影响那?如果你的服务器是一个间歇性的,是不稳定的,那么百度这边会有系统进行监控的,一般情况下如果两天持续出现这种问题的话,那么一定在你的网站排名上有一些影响。 ②服务器反复重启。这个问题也要注意,当然这个并不是大问题,所以不过多说。 ③服务器在国外的站点。如果你的服务器在国外,同时连通性也得不到保证的话,不但对排名有一定的影响,同时也会对抓取量也有一定的影响,当然在这里更建议大家,验证百度站长平台,有一些这样的问题,百度会进行站内通知,同时也可以使用抓取诊断工具进行查排。
第二,cdn可访问 对于一些大站来说,一般不会有这个问题,但是对于一些中小型的站点,为了提高访问速度,会使用一些cdn的服务,那么有一个值得注重的问题,就是有一些cdn会区别的对待爬虫和用户,比如对待百度的爬虫或者其他搜索引擎的爬虫会设置一个独立的访问ip,所以会产生一个问题,就是用户和爬虫看到的网页并不一样,所以站点如果使用**服务应该注意一下设置的问题,当然最简单的方式是通过诊断工具,看一下是否可以抓取正常。 还有一种是,cdn直接拒绝对爬虫的访问,比如像百度爬虫去cdn上面拿ip的时候,会返回一个超时的显示,而实质上就是拒绝访问。
第三,运营商选择 ①地域选择,有很多的中小型站点会照顾不到这一点,很可能会出现北京的用户可以访问,而上海的用户却访问不了。 ②可以把百度爬虫,看成是北京的ip访问。 ③网通电信选择的问题,百度爬虫抓取网页的时候,有可能是网通也有可能是电信,这个是随机的。
以上就是影响百度爬虫抓取的因素之服务器的连通性。
作者:
favoritejay
时间:
2016-11-29 18:14
孙先生
QQ:2850221735
电话:0755-86548095
小鸟云计算网址:www.niaoyun.com
欢迎前来联系、交流!
(Intel Haswell + DDR4 + SSD = 50,000IOPS、800Mb/s吞吐量)
小鸟云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。
欢迎光临 系统集成论坛 (http://bbs.xtjc.com/)
Powered by Discuz! X3.1