网站Robots.txt协议文件的设置和方法_Robots设置讲解_Robots怎么设置_

软件下载 12月 08, 2022 0 king

Robots.txt协议文件的设置教程和方法

我们在建设运营网站时，有很多的文件和路径是要对搜索引擎屏蔽的，其中的原因有安全风险、隐私保护、资源浪费等等，这个时候就需要用到robots.txt，这是全球所有搜索引擎都支持的协议文件，也是SEO优化必不可缺的重要环节。

什么是robots文件

知识兔

Robots是站点与spider沟通的重要渠道，站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果知识兔您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

robots.txt文件放在哪里?

知识兔

robots.txt文件应该放置在网站的根目录下。举例来说，当spider访问一个网站（比如https://www.zhishitu.com）时，首先会检查该网站中是否存在https://www.zhishitu.com/robots.txt这个文件，如果知识兔Spider找到这个文件，它就会根据这个文件的内容，来确定它访问的权限和范围。

网站 URL	相应的 robots.txt的 URL
https://www.zhishitu.com/	https://www.zhishitu.com/robots.txt
http://www.zhishitu.com:80/	http://www.zhishitu.com:80/robots.txt
https://www.zhishitu.com:443/	https://www.zhishitu.com:443/robots.txt
http://www.zhishitu.com/	http://www.zhishitu.com/robots.txt

robots.txt文件的格式

知识兔

robots文件往往放置于根目录下，包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果知识兔有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果知识兔该项的值设为*，则对任何robot均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。如果知识兔在”robots.txt”文件中，加入”User-agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow:

该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，知识兔也可以是路径的非空前缀，知识兔以Disallow项的值开头的URL不会被 robot访问。

例如”Disallow: /help”，并不是禁止robot访问/help.html、/helpabc.html、/help/index.html，而是允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一条Disallow记录。如果知识兔”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，知识兔也可以是路径的前缀，知识兔以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页的同时禁止访问其它所有URL的功能。

使用”*”and”$”：

Baiduspider支持使用通配符”*”和”$”来模糊匹配url。

“*” 匹配0或多个任意字符

“$” 匹配行结束符。

以上为小编给大家讲解的示例，也是所有的搜索引擎robots设置的规范。

但是我们在使用robots时要注意避免设置失误导致网站负面情况，在设置禁止抓取文件路径和页面URL地址时一定要准确，不建议用泛路径字母，比如：ABC*、*CBA、A*B*C，除非已经仔细整理了网站所有文件路径名称和页面URL地址，为了保密安全隐私文件路径名称，单独设置禁止抓取。