(网络营销新观察,http://www.01ad.cn)
有些网站连robots.txt文件都没有,以至于有些不该被访问的网页被搜索引擎抓取了。所有这一点,请站长们不要偷懒。
什么是robots.txt?
答:robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt放在网站的哪个位置?文件名需要大写还是小写?
答:必须放在网站的根目录下,文件名必须小写。如:
网址:http://www.w3.org/ robots.txtu位置:http://www.w3.org/robots.txt
网址:http://www.w3.org:80/ robots.txtu位置:http://www.w3.org:80/robots.txt
robots.txt的基本语法是怎样的?
答:robots.txt的语法是很简单的,一般常用为三个命令:User-agent,Disallow,Allow
User-agent:描述搜索引擎的名字,如果该项的值设为*,则该协议对任何机器人均有效;
Disallow:拒绝搜索引擎访问的URL;
Allow:允许搜索引擎访问的URL。
请举出robots.txt的写作实例:
答:User-agent: * # (俺的站还是小站,当然希望越多的搜索引擎爬虫来爬我的网站了,^_^)
Disallow: /dede #以下开始对所有的文件或文件夹进行搜索引擎访问权限设置。
Allow: /html
Allow: /include
Disallow: /member
Allow: /plus
Allow: /special
Allow: /templets
Allow: /upimg
Allow: /weblog
Disallow: /Article #由于网站改版,以下为删除搜索引擎收录的网页
Disallow: /article
Disallow: /Brand
Disallow: /DownLoad
Disallow: /ReSearch
Disallow: /Soft
Disallow: /epaper
Disallow: /Faq.asp
Disallow: /edit_userinfo.asp
Disallow: /projects.asp
Disallow: /success.asp
如何删除被搜索引擎收录的网页?
答:当网页改版或更新网页文件时,一些文件就要删除,那么如何删除被搜索引擎收录的网页呢?之前就要写信给搜索引擎,或在搜索引擎提供的删除提交网页一页页的提交。
其实如何掌握了robots.txt,那么删除失效网页就会变得轻而易举。Disallow命令就是删除收录网页的,它可以是文件夹下所有的文件,也可以单一网页。例如"Disallow:/help"是将help文件夹下的所有文件都删除收录,而"Disallow:/ help.html "则只删除网站根目录下的help.html单个网页文件。如果只想把help下的部分网页文件删除,则要分别一一指定。
有哪些常见搜索引擎机器人Robots名字? 答:名称搜索引擎 URL Baiduspider http://www.baidu.com Scooter http://www.altavista.com ia_archiver http://www.alexa.com Googlebot http://www.google.com Inktomi Slurp http://www.yahoo.com FAST-WebCrawler http://www.alltheweb.com Slurp http://www.inktomi.com MSNbot http://search.msn.com
如何测试我写的robots.txt文件的有效性?
答:截至目前为止,我觉得google是最为规范的搜索引擎,googlebot完全按照robots协议来抓取网页。而且现在google提供功能强大的网站管理员工具,可以在线测试robots的有效性。大家可以在www.google.cn上去申请。
(龙啸:网络营销新观察网站站长,网络营销实践者,从事搜索引擎营销,email营销,电子商务,网络广告等领域的研究,欢迎交流。联系方式:241258977 MSN:tgzg@hotmail.com) |