龙啸：seo之菜鸟通俗教程一，认识robots.txt--龙啸的网络营销博客

博客文章下载中......

龙啸：seo之菜鸟通俗教程一，认识robots.txt

By 龙啸发表于 2007-1-19 18:09:08

(网络营销新观察,http://www.01ad.cn)

有些网站连robots.txt文件都没有，以至于有些不该被访问的网页被搜索引擎抓取了。所有这一点，请站长们不要偷懒。

什么是robots.txt?

答：robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt放在网站的哪个位置?文件名需要大写还是小写？

答：必须放在网站的根目录下，文件名必须小写。如：

网址：http://www.w3.org/
robots.txtu位置：http://www.w3.org/robots.txt

网址：http://www.w3.org:80/
robots.txtu位置：http://www.w3.org:80/robots.txt

robots.txt的基本语法是怎样的？

答：robots.txt的语法是很简单的，一般常用为三个命令：User-agent，Disallow，Allow

User-agent：描述搜索引擎的名字，如果该项的值设为*，则该协议对任何机器人均有效；

Disallow：拒绝搜索引擎访问的URL；

Allow：允许搜索引擎访问的URL。

请举出robots.txt的写作实例：

答：User-agent: * # (俺的站还是小站，当然希望越多的搜索引擎爬虫来爬我的网站了,^_^)

Disallow: /dede #以下开始对所有的文件或文件夹进行搜索引擎访问权限设置。

Allow: /html

Allow: /include

Disallow: /member

Allow: /plus

Allow: /special

Allow: /templets

Allow: /upimg

Allow: /weblog

Disallow: /Article #由于网站改版，以下为删除搜索引擎收录的网页

Disallow: /article

Disallow: /Brand

Disallow: /DownLoad

Disallow: /ReSearch

Disallow: /Soft

Disallow: /epaper

Disallow: /Faq.asp

Disallow: /edit_userinfo.asp

Disallow: /projects.asp

Disallow: /success.asp

如何删除被搜索引擎收录的网页？

答：当网页改版或更新网页文件时，一些文件就要删除，那么如何删除被搜索引擎收录的网页呢？之前就要写信给搜索引擎，或在搜索引擎提供的删除提交网页一页页的提交。

其实如何掌握了robots.txt，那么删除失效网页就会变得轻而易举。Disallow命令就是删除收录网页的，它可以是文件夹下所有的文件，也可以单一网页。例如"Disallow:/help"是将help文件夹下的所有文件都删除收录，而"Disallow:/ help.html "则只删除网站根目录下的help.html单个网页文件。如果只想把help下的部分网页文件删除，则要分别一一指定。

有哪些常见搜索引擎机器人Robots名字?
答：名称搜索引擎    URL
Baiduspider   http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver    http://www.alexa.com
Googlebot   http://www.google.com
Inktomi Slurp     http://www.yahoo.com
FAST-WebCrawler       http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNbot http://search.msn.com

如何测试我写的robots.txt文件的有效性？

答：截至目前为止，我觉得google是最为规范的搜索引擎，googlebot完全按照robots协议来抓取网页。而且现在google提供功能强大的网站管理员工具，可以在线测试robots的有效性。大家可以在www.google.cn上去申请。

(龙啸：网络营销新观察网站站长，网络营销实践者，从事搜索引擎营销，email营销，电子商务，网络广告等领域的研究，欢迎交流。联系方式：241258977 MSN:tgzg@hotmail.com)

阅读全文 | 回复(2) | 编辑

Re:龙啸：seo之菜鸟通俗教程一，认识robots.txt

By zhang_vic(游客)发表评论于2007-2-7 10:15:55

这篇文章写的不错,收获了不少东西!

个人主页 | 引用 | 返回 | 删除 | 回复

Re:龙啸：seo之菜鸟通俗教程一，认识robots.txt

By 李学江(游客)发表评论于2007-1-19 23:31:48

其实从另外的角度说,整这么多东西,这么麻烦,那其实就是搜索引擎的不人性化的表现!我就觉得BAIDU加入人工干预是好事,至少符合中国国情!

个人主页 | 引用 | 返回 | 删除 | 回复

发表评论：

博客个人信息

博客文章下载中......

站点日历

博客文章下载中......