从网站日志文件分析搜索爬虫--龙啸的网络营销博客

博客文章下载中......

从网站日志文件分析搜索爬虫

By 龙啸发表于 2007-2-3 23:59:01

首发:网络营销新观察 http://www.01ad.cn

近日因为搜索引擎开始比较关注我的网站了，所以我也比较关注网站的日志文件。因为在这里能够查找出所有到我网站上来的搜索爬虫行为。

首先，我找到baiduspider，因为现在的百度爬虫在众多的搜索爬虫中最为活跃，可不是?我网站是改版过的，百度第一个更新了我网站收录的网页，这一点，我对百度颇为满意。

2007-02-03 11:43:27 61.135.162.79 - 218.85.132.68 80 GET /html/down/20070129/549.html - 200 Baiduspider+(+http://www.baidu.com/search/spider.htm)

61.135.162.79－查了此IP是北京网通，估计就是百度爬虫所在的服务器了。这句代码很明了，就是百度蜘蛛在2007-02-03 11点43分对我网站上的549.html网页进行收录或更新了。

百度爬虫来的时间不一定，有时候在凌晨1-2点，有时早上，有时又是下午。我观察了日志文件一段时间，百度几乎每天必来，我想应该与我网站文章天天更新有关吧。

接下来说说googlebot，我盼googlebot已经好久了，这几天它终于来了，然后我在www.google.com上输入site:www.01ad.cn，果然看到了收录文件的更新。

2007-02-03 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)

218.85.132.68查此IP直接给了结果“美国 GoogleBot 搜寻引擎机器人”，呵呵，goolgebot真出名，也很规范。

Yahoo也要说说的：
2007-02-03 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658.html - 200 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

查IP得知是雅虎中国，Yahoo!+Slurp+China是雅虎蜘蛛名，以前是Inktomi Slurp；想查询网站在yahoo的收录情况与google和百度不同的是，你直接在www.yahoo.com.cn上输入网址即可。不用加前缀site:，还有一点，觉得这几个月的雅虎中国在技术上有改进，在网站收录和关键词搜索上，大家可以自己去体会。

说完三大搜索爬虫，再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫：
1)msn:　msn(msn live search beta)的搜索技术我个人觉得是难入流的，似乎比门户搜索更差，beta说明搜索版在测试阶段，现在电信采用msn的搜索技术，不知道电信的是什么眼光，呵呵。
2007-02-03 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

2)Alexa：大名鼎鼎的世界排名Alexa，它的蜘蛛比较难记，是ia_archiver。从严格意义上说，它不知道是不是爬虫，它与纯搜索引擎不同，是来侦测流量的居多，并不是来收录网页的。
2007-02-03 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver

3)Iask爱问：
2007-02-03 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935.html - 200 Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗：对于搜狗，我就觉得好笑了。大家记得我说过我的网站是改版过的，Brand是旧网站文件，早被我删除了。而且为了删除除搜索引擎收录的死链接，我在robots.txt文件中写着：Disallow: /Brand ，这当然禁止访问Brand下的文件，我这里想说的是，一、它sogou不遵守robots协议，二、对于已经删除近一个月的文件，它从哪里搜索而来。我真的不太明白了。
2007-02-03 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;http://www.01ad.cn/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:对于这个，大家不要感觉惊讶，这是163新开发的搜索引擎，目前处于测试版，界面颇象google风格，但技术年幼，也象搜狗一样乱抓一通。2007-02-02 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;http://www.01ad.cn/underwear/4864.gif 200 yodaoice

那么多爬虫盯上我的网站，一方面喜的是咱小网站的发展还得靠它们，一方面忧的是有些不按规则来抓的对网站的访问会有造成不良的影响。看看比前两周增长得多的日志文件就知道了。

阅读全文 | 回复(2) | 编辑

上一篇：我只是个普通的网民,请不要再"强奸"我.
下一篇：也说Google Adsense

Re:从网站日志文件分析搜索爬虫

By epaper发表评论于2007-2-5 15:27:29

谢谢您的留言,您有QQ或MSN在线联系方式吗?可否交流一下互相学习,谢谢.

个人主页 | 引用 | 返回 | 删除 | 回复

Re:从网站日志文件分析搜索爬虫

By 李学江(游客)发表评论于2007-2-4 13:26:46

看了老兄的网站，给我更大的感觉就是，从策划的角度说，定位不太清晰。

个人主页 | 引用 | 返回 | 删除 | 回复

发表评论：

博客个人信息

博客文章下载中......

站点日历

博客文章下载中......