博客文章下载中......
博客文章下载中......
 当前位置:网上营销新观察营销人博客首页— 我的博客
   
龙啸:seo之菜鸟通俗教程一,认识robots.txt
By  龙啸 发表于 2007-1-19 18:09:08 

(网络营销新观察,http://www.01ad.cn)

有些网站连
robots.txt文件都没有,以至于有些不该被访问的网页被搜索引擎抓取了。所有这一点,请站长们不要偷懒。

什么是robots.txt?

robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt放在网站的哪个位置?文件名需要大写还是小写?

:必须放在网站的根目录下,文件名必须小写。如:

网址:http://www.w3.org/
robots.txtu
位置:http://www.w3.org/robots.txt

网址:http://www.w3.org:80/
robots.txtu
位置:http://www.w3.org:80/robots.txt

 

robots.txt的基本语法是怎样的?

robots.txt的语法是很简单的,一般常用为三个命令:User-agentDisallowAllow

User-agent:描述搜索引擎的名字,如果该项的值设为*,则该协议对任何机器人均有效;

Disallow:拒绝搜索引擎访问的URL

Allow:允许搜索引擎访问的URL

 

请举出robots.txt的写作实例:

User-agent: *  # (俺的站还是小站,当然希望越多的搜索引擎爬虫来爬我的网站了,^_^)

Disallow: /dede    #以下开始对所有的文件或文件夹进行搜索引擎访问权限设置。

Allow: /html

Allow: /include

Disallow: /member

Allow: /plus

Allow: /special

Allow: /templets

Allow: /upimg

Allow: /weblog

Disallow: /Article   #由于网站改版,以下为删除搜索引擎收录的网页

Disallow: /article

Disallow: /Brand

Disallow: /DownLoad

Disallow: /ReSearch

Disallow: /Soft

Disallow: /epaper

Disallow: /Faq.asp

Disallow: /edit_userinfo.asp

Disallow: /projects.asp

Disallow: /success.asp

 

如何删除被搜索引擎收录的网页?

:当网页改版或更新网页文件时,一些文件就要删除,那么如何删除被搜索引擎收录的网页呢?之前就要写信给搜索引擎,或在搜索引擎提供的删除提交网页一页页的提交。

其实如何掌握了robots.txt,那么删除失效网页就会变得轻而易举。Disallow命令就是删除收录网页的,它可以是文件夹下所有的文件,也可以单一网页。例如"Disallow:/help"是将help文件夹下的所有文件都删除收录,而"Disallow:/ help.html "则只删除网站根目录下的help.html单个网页文件。如果只想把help下的部分网页文件删除,则要分别一一指定。

 

有哪些常见搜索引擎机器人Robots名字?
答:名称搜索引擎            URL
Baiduspider               http://www.baidu.com
Scooter                    http://www.altavista.com
ia_archiver                http://www.alexa.com
Googlebot                 http://www.google.com
Inktomi Slurp             http://www.yahoo.com
FAST-WebCrawler       http://www.alltheweb.com
Slurp                       http://www.inktomi.com
MSNbot                  
http://search.msn.com

 

如何测试我写的robots.txt文件的有效性?

答:截至目前为止,我觉得google是最为规范的搜索引擎,googlebot完全按照robots协议来抓取网页。而且现在google提供功能强大的网站管理员工具,可以在线测试robots的有效性。大家可以在www.google.cn上去申请。

 

(龙啸:网络营销新观察网站站长,网络营销实践者,从事搜索引擎营销,email营销,电子商务,网络广告等领域的研究,欢迎交流。联系方式:241258977 MSN:tgzg@hotmail.com)

 
阅读全文 | 回复(2) | 编辑
Re:龙啸:seo之菜鸟通俗教程一,认识robots.txt
By  zhang_vic(游客)发表评论于2007-2-7 10:15:55 

这篇文章写的不错,收获了不少东西!
 
个人主页 | 引用 | 返回 | 删除 | 回复
Re:龙啸:seo之菜鸟通俗教程一,认识robots.txt
By  李学江(游客)发表评论于2007-1-19 23:31:48 

其实从另外的角度说,整这么多东西,这么麻烦,那其实就是搜索引擎的不人性化的表现!我就觉得BAIDU加入人工干预是好事,至少符合中国国情!
 
个人主页 | 引用 | 返回 | 删除 | 回复

发表评论:

    昵称:
    密码:
    标题:

 
 博客个人信息
博客文章下载中......
站点日历
博客文章下载中......
最新日志
博客文章下载中......
最新评论
博客文章下载中......
最新留言
博客文章下载中......
友情链接
站点统计
博客文章下载中......
日志搜索
用户登陆