如何制作SEO友好robots.txt机器人文本文件

2019.09.07 - 象牙白

SEO友好机器人

从一开始,谷歌 – 以及随后,成长,生活或死亡的其他搜索引擎 – 需要某种方式来查找要编制索引的页面。一开始,谷歌使用员工的手动喂养。然而,随着互联网的规模和规模,这几乎是不可持续的。相反,他们开发了搜索爬虫,网络蜘蛛,软件扫描仪; 我们今天称之为机器人的实体。

为了限制这些机器人的行为 – 告诉他们在给定站点上做什么和不做什么 – 创建了机器人排除协议。最初创建于1994年,它最近更新,最近包括新属性rel = nofollow。

你如何适当地使用robots.txt文件?

正确找到它
当搜索引擎抓取工具访问您的网站时,它首先要做的是剥离网址并查找robots.txt文件。因此,如果机器人在其他网站上找到了指向您网站的链接www.example.com/blog-post-category/blog-title/并按照该链接进行操作,那么它的第一个操作就是将所有内容从该网址中删除,并将其保留为www .example.com的。一旦它有了这个裸URL,就会在最后添加robots.txt来查找文件; www.xybseo.com/robots.txt。这是robots.txt文件的唯一有效位置。如果您将其放置在您网站上的任何其他位置,搜索引擎将无法找到它。

使用它或不使用它
考虑以下三种情况:

1.根本没有robots.txt文件。
你有一个robots.txt文件,但它是空白的。
3.您有一个包含两行的robots.txt文件:User-agent下的通配符,不允许任何内容。

robots.txt的文件 – 使用 – 这 – 或 – 不要
这三种情况都完全相同。当搜索机器人进入您的站点时,它将查找robots.txt文件。 如果它什么都没找到,发现它是空的或没有任何不允许的情况下找到它,那么机器人可以自由地解析整个站点。索引中不会隐藏或禁止任何内容。如果这对你没问题 – 或者如果你正在使用页面上的noindex指令 – 你可以不使用robots.txt文件。但是,最好至少拥有一个基本的robots.txt文件,这样你就可以想要包含一个不允许的内容。

另外需要注意:robots.txt区分大小写。Robots.TXT不是指令的有效文件名。

指定机器人
robots.txt文件中的第一行通常是“User-agent:*”。这一行的作用是指定你控制的机器人。*是通配符,表示任何以下指令适用于访问您站点的每个机器人。几乎每个站点都只使用带有通配符的一个用户代理行,而不是为单个机器人指定指令。这是因为您可以指定数百个机器人,并且尝试单独指导其行为是一种快速扩展文件并浪费时间的方法。

如果您不希望您的网站显示在特定搜索中,您可以指定某些机器人,但您可能希望这样做的情况很少见。

考虑不允许
robots.txt文件中跟在用户代理行之后的任何行通常以Disallow:开头。遵循以下内容的任何内容:是您告诉搜索引擎不要编制索引的路径。例如:

•Disallow:/ etc会告诉搜索引擎忽略/ etc文件夹中的任何内容。
•禁止:/ photos会告诉搜索引擎忽略/ photos文件夹中的任何内容。
•禁止:/会告诉搜索引擎忽略您网站上的所有内容。

大多数基本的robots.txt文件会告诉搜索引擎忽略一些对站点的显示或内容不必要的目录,但必须在那里让后端系统工作。/ cgi-bin /和/ tmp /等文件夹属于此类别。

禁止用户帐户和机密文件夹
考虑-不允许-robotstxt
例如,如果您网站上的每个用户都有自己的子文件夹,则默认情况下您可能希望禁用这些文件夹。对此的条目可能是Disallow:/ ~username /。这告诉搜索蜘蛛忽略该用户文件夹中的任何内容。您还可以禁止:/ confidential /隐藏您不希望在线编入索引的任何机密文件。

这个计划存在一个巨大的缺陷; 您的robots.txt文件可公开访问。必须是,网络机器人才能找到它并使用它。这意味着任何人都可以访问您的网站并以纯文本格式查看robots.txt文件。如果您不允许机密文档文件夹或用户配置文件,那么这些URL字符串在您的txt文件中可见,这允许用户关注它们并查看您的文档。

切勿使用disallow命令作为保护文件的唯一方法。 至少,您还应该将这些文件夹放在密码后面,这样一般的未经授权的用户就无法访问它们。

关于允许命令
如果有禁令,必须有允许,对吧?嗯,是的,不。有一个允许命令,但只有谷歌和其他一些机器人尊重它。大多数机器人都不在乎; 他们认为没有禁止作为索引的许可。

您何时可以使用allow命令?假设您有一个文档文件夹/ docs /。它充满了您不希望Internet上的文档,但是您想要共享和索引的文件夹中有一个文档/sharedoc.txt。允许Google查看该文件的正确语法是:

•User-agent:*
•Disallow:/ docs
/•Allow:/docs/sharedoc.txt

这实际上仅适用于Google,不应在整个网站中使用。一般来说,你会想要谨慎使用或者根本不使用。

关于索引的注意事项
A-注 – 关于索引
搜索引擎将跟随链接,他们将记录他们已遵循这些链接。disallow命令只告诉搜索引擎不要继续并索引给定目录中页面的内容。禁止:/ sharedocs /会告诉搜索引擎忽略该文件夹的内容,但仍会注意到该文件夹​​存在。该页面仍然可以累积PageRank和入站链接,但它无法传递它们。

如果您希望页面在功能上对搜索引擎不可见,您将需要在页面上使用noindex元命令。这会使网址不受搜索结果以及网页内容的影响。

此外,恶意网络抓取工具将忽略您的robots.txt指令。这意味着它不是一种安全工具,它只是一种用于控制Google和其他合法抓取工具所见的工具。

Robots.txt的SEO指南
• 拥有robots.txt。没有一个让你无法控制。
•对bot指令使用通配符。指定不同的行为是没有意义的。
• 永远不要禁止整个网站。禁止:/使您的网站排除在排名之外并破坏您在排名方面可能取得的任何进展。
•禁止垃圾目录。不允许包括系统文件或您不想索引的文件在内的任何内容。
•对于单个页面,请跳过robots.txt并使用meta noindex。

创建robots.txt文件非常简单,您也可以使用在线工具生成一个文件。

- END -

39
0

成为SEO专业人士的5分钟速成课程

成为SEO专业人士

从一开始,谷歌 – 以及随后,成长,生活或死亡的其他搜索引擎 – 需要某种方式来查找要 […]