robots.txt使用入门


在我们做网站或者写博客的时候,如果我们网站某个页面不想让百度和google等搜索引擎收录,那怎么办?答案是robots.txt能实现这个梦想。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是不希望被搜索引擎收录的 。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被保护的页面。

关于robots.txt一般站长需要注意以下几点:

1、如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
2、必须命名为:robots.txt,都是小写,robot后面加”s”。
3、robots.txt必须放置在一个站点的根目录下。如:通过 http://www.xxx.com/robots.txt 可以成功访问到,则说明本站的放置正确。
4、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
5、有几个禁止,就得有几个Disallow函数,并分行描述。
6、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。

补充说明:

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: /about.html 说明 这个页面禁止搜索引擎抓取。(注:因为这个页面没有人去搜索,它就是一个空白页,所以我是不希望搜索引擎去抓取一个无任何内容的页面的)

Disallow: /catalog.php?page= 说明类似这样的页面http://www.xxx.com/catalog.php?page=2 禁止搜索引擎抓取。