百度蜘蛛抓取规律分析
2019-04-19 10:30:22 浏览量:299
最近一直在研究百度蜘蛛抓取规律,刚开始的时候,真的是杂乱无章,看不出什么头绪,但最近找到了一个好工具,分析的很好。 网站从8月末到11月末一直没有更新,百度单日抓取量由2800多降低到500多,但不管抓取量多大,一直有相同的规律。 先公布下我的网站的百度蜘蛛三个月的抓取规律: 1、百度蜘蛛ip 99%都是123.125.71段[从12-117,105个] 、220.181.108段[从75-187,102个],也就是加在一起207个蜘蛛ip,观察三个月的数据,每天这些蜘蛛都会来。见图一 问题:除了以上这些蜘蛛ip之外,每天都有两三个180.76.5段的蜘蛛ip,这个ip段蜘蛛是做什么的?你们的Iss日志的蜘蛛ip数是多少? 2、这一点是比较稀奇的,网站停留三个月没有更新,百度蜘蛛抓取量由2000多降低到500多,但稀奇的是蜘蛛抓取最大间隔值都不超过7分钟。 问题:抓取间隔是否和网站权重有关系,为什么这么凑巧最大间隔从不超过7分钟? 3、最近半个月网站开始更新,很多指数都恢复到三个月之前,每个月抓取量也将近2000,通过对最近几天蜘蛛的观察,凡是当天发布的文章,百度蜘蛛最少抓取两次,并且这两次抓取间隔为四个小时。 问题:百度针对一个页面为什么抓取两次,其实第一次抓取的时候已经显示收录了,为什么四个小时候再抓取一次?
3人参与回答
  • 张永航 101011博客博主小A,资深伪IT人士,热衷于分享自己积攒的互联网经验!
    建议你先确定好蜘蛛是百度的还是其他工具仿得!
    65 2019-04-19 10:30:23
  • 高廿宇 所有营销只有契合到产品上才具实际价值。
    看蜘蛛相当于把脉,最关键的还是要能根治。
    32 2019-04-19 10:30:23
  • 吴星 文艺极客QQ群 255363059
    我是用正则匹配日志中的百度蜘蛛,比题主收集的数据多了状态码,百度蜘蛛种类,访问URL。 1. 百度站长工具压力显示新东家网站子域名每天抓取2000次,但编辑后台统计总共才3000个页面,实际日志查到的为几百条百度蜘蛛记录,看样子可以新增1000篇文章,让百度多爬点。ip地址都差不多,123.125.71段[从12-117],220.181.108段[从75-187],180.76.5段[从21-194],另外还有2个117.28.255.37,117.34.73.70假的。185.10.104段亦有2个。 2. 这与权重没什么关系罢,同样从0:05-0:27时间内百度蜘蛛在子域名爬了69次,但之后过了15分钟才继续爬。每日百度来的流量大约为几百个UV。 3. 昨日已经回答过,一般大型网站百度蜘蛛重复抓取率较低,而中小型网站重复抓取率较高,因此看到百度蜘蛛爬得很勤,不必太高兴,只能说明百度记不住这个网站,需要多爬几次以免忘记。
    12 2019-04-19 10:30:23

提示信息

联系电话:
1585150508*
QQ交谈:
小编
站长微信:
站长邮箱: service@qingjiuzhubei.com