1. 首页
  2. SEO教程

robots协议是什么意思?对网站有什么作用?

包含在大多数网站的源文件中。Robots.txt文件主要用于管理网络爬虫等好机器人的活动,因为不好的机器人不太可能遵循这些说明。

robots协议的介绍和作用

可以将robots.txt文件看作是贴在健身房,酒吧或社区中心的墙上的“行为准则”标志:该标志本身无权执行所列规则,但拥有“好的”赞助者会遵守规则,而“不良”规则可能会破坏规则并被禁止。

机器人是与网站和应用程序进行交互的自动化计算机程序。有好机器人和坏机器人,好机器人的一种类型称为网络爬虫机器人。这些漫游器会“抓取”网页并为内容建立索引,以便其可以显示在搜索引擎结果中。robots.txt文件可帮助管理这些Web爬网程序的活动,以使它们不会使托管该网站的Web服务器或索引页面的负担不增加,这些网页不适合公众查看。

robots协议的介绍和作用

robots.txt文件如何工作?

robots.txt文件只是一个没有HTML标记代码的文本文件(因此,扩展名为.txt)。robots.txt文件与网站上的任何其他文件一样,都托管在网络服务器上。实际上,通常可以通过输入主页的完整URL,然后添加/robots.txt

来查看任何给定网站的robots.txt文件。该文件未链接到该网站上的任何其他位置,因此用户不太可能会偶然发现该文件,但是大多数Web爬网程序bot都会在抓取该网站的其余部分之前先查找该文件。

虽然robots.txt文件提供了有关漫游器的说明,但实际上并不能执行这些说明。良好的漫游器(例如Web爬网程序或新闻提要漫游器)将先尝试访问robots.txt文件,然后再查看域中的任何其他页面,并将按照说明进行操作。不良的漫游器会忽略robots.txt文件或对其进行处理,以查找被禁止的网页。

网络搜寻器漫游器将遵循robots.txt文件中最具体的说明集。如果文件中有矛盾的命令,则漫游器将遵循更细化的命令。

需要注意的重要一件事是,所有子域都需要有自己的robots.txt文件。例如,尽管www.cloudflare.com拥有自己的文件,但所有Cloudflare子域(blog.cloudflare.com,community.cloudflare.com等)也需要它们自己的文件。

robots.txt文件中使用了哪些协议?

在联网中,协议是用于提供指令或命令的格式。Robots.txt文件使用几种不同的协议。主要协议称为机器人排除协议。这是一种告诉机器人避免使用哪些网页和资源的方法。robots.txt文件中包含为此协议格式化的说明。

用于robots.txt文件的其他协议是Sitemaps协议。这可以视为机器人包含协议。站点地图向网络爬虫显示了它们可以爬网的页面。这有助于确保搜寻器漫游器不会遗漏任何重要页面。

robots.txt文件示例

原创文章,作者:晴天SEO,如若转载,请注明出处:http://www.time2009.net.cn/seojc/372.html