百度蜘蛛抓取规律分析
2019-04-19 10:30:22 浏览量:299
最近一直在研究百度蜘蛛抓取规律,刚开始的时候,真的是杂乱无章,看不出什么头绪,但最近找到了一个好工具,分析的很好。
网站从8月末到11月末一直没有更新,百度单日抓取量由2800多降低到500多,但不管抓取量多大,一直有相同的规律。
先公布下我的网站的百度蜘蛛三个月的抓取规律:
1、百度蜘蛛ip 99%都是123.125.71段[从12-117,105个] 、220.181.108段[从75-187,102个],也就是加在一起207个蜘蛛ip,观察三个月的数据,每天这些蜘蛛都会来。见图一
问题:除了以上这些蜘蛛ip之外,每天都有两三个180.76.5段的蜘蛛ip,这个ip段蜘蛛是做什么的?你们的Iss日志的蜘蛛ip数是多少?
2、这一点是比较稀奇的,网站停留三个月没有更新,百度蜘蛛抓取量由2000多降低到500多,但稀奇的是蜘蛛抓取最大间隔值都不超过7分钟。
问题:抓取间隔是否和网站权重有关系,为什么这么凑巧最大间隔从不超过7分钟?
3、最近半个月网站开始更新,很多指数都恢复到三个月之前,每个月抓取量也将近2000,通过对最近几天蜘蛛的观察,凡是当天发布的文章,百度蜘蛛最少抓取两次,并且这两次抓取间隔为四个小时。
问题:百度针对一个页面为什么抓取两次,其实第一次抓取的时候已经显示收录了,为什么四个小时候再抓取一次?