robots.txt怎么写 – SEO技术博客

一：什么是Robots。

Robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围。防止搜索引擎索引我们网站的私密文件。

注意事项：

1）必须放在根目录下。

2）文件名必须全部小写。

3）如果允许全部抓取，也需要建立一个空的Robots.txt文件。

4） Robots.txt禁止的文件仍然有可能出现在搜索结果中。如需完全禁止需要用Meta Robots属性。

5） Robots只是一种规则，需要搜索引擎的配合。如若搜索引擎不遵守则无意义。

二：Robots.txt文件的语法规则。

1） Robots.txt中的记录是以空行来分开的，每行的格式如下：

“:

”

表示定义域，
表示开放空格，表示定义域值。

定义域有三种1）User-agent该项定义域用来描述搜索引擎名称。

常见搜索引擎名称：

名称搜索引擎

Baiduspider 百度：http://www.baidu.com

Scooter Vista：http://www.altavista.com

ia_archiver Alexa：http://www.alexa.com

Googlebot 谷歌：http://www.google.com

FAST-WebCrawler Fast：http://www.alltheweb.com

MSNBOT Msn：http://search.msn.com

2）Disallow该项定义域用来描述希望不被索引的URL路径。

3）Allow该项定义域用来描述可以被索引的URL路径（由于缺省值是允许索引所以该项定义域会很少使用到）。

Disallow与Allow这两定义域的域值可以是一条完整路径也可以是路径的非空前缀。第三部分当中的具体实例用法当中就是探讨这两定义域的域值。

三：Robots.txt文件的具体实例用法。

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2. 允许所有的robot访问网站的任何部分

User-agent: *
Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

例5. 禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

注意事项：1）三个目录要分别写。2）请注意最后要带斜杠。3）带斜杠与不带斜杠的区别。

例6. 允许访问特定目录中的部分url

我希望a目录下只有b.htm允许访问，怎么写？

User-agent: *
Allow: /a/b.htm
Disallow: /a/
注：允许收录优先级要高于禁止收录。

从例7开始说明通配符的使用。通配符包括（”$” 结束符；
“*”任意符）

例7. 禁止访问网站中所有的动态页面

User-agent: *
Disallow: /*?*

例8. 禁止搜索引擎抓取网站上所有图片

User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

其他很多情况呢，需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用，相信很多情况是可以解决的。

四：Robots Meta标签

什么是Robots Meta标签。

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots Meta标签也是放在页面的

中，专门用来告诉搜索引擎如何抓取该页的内容。

Robots Meta标签各项属性详细说明。

Noindex – 阻止页面被列入索引。

Nofollow – 阻止对于页面中任何超级链接进行索引。

Noarchive – 不保存该页面的网页快照。

Nosnippet – 不在搜索结果中显示该页面的摘要信息，同时不保存该页面的网页快照。

Noodp – 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。

发表回复 取消回复

发表回复取消回复