5分钟生成10篇英文软文article forge软件试用

什么是 Robots.txt.? 我如何阻止您的内容的过程

google广告开户

作为数字营销人员或电子商务网站所有者,您的网站在搜索引擎结果页面上的排名可能会成就或破坏您的业务。

您可以做很多事情来控制您的网站在主页内外的排名方式。 像 搜索引擎优化 您可能会想到关键字研究,但您熟悉您的 robots.txt 文件吗?

它在您的网站如何被索引和排名方面发挥着重要作用,因此您需要密切关注它。

让我们来谈谈 robots.txt 文件是什么,它如何影响你的 搜索引擎优化,以及您应该如何以及何时在您的网站上使用它。

什么是 Robots.txt?

一种 机器人.txt,也称为机器人排除文件,是一个文本文件,它告诉搜索引擎机器人如何抓取和索引您的网站。 这是一把钥匙 技术搜索引擎优化 用于防止搜索引擎机器人抓取您网站的受限区域的工具。

就您网站的索引方式而言,这些机器人如何抓取您的网站非常重要。 反过来,这会对您的网站在搜索引擎结果页面上的排名产生巨大影响。

有时,您的网站上会有一些对网站功能很重要但不一定重要到不能被索引或查看的信息或文件。 当您安装 robots.txt 文件时,它会阻止这些文件被抓取。

Robots.txt 文件在哪里?

robots.txt 文件存在于域的根目录中。 它看起来像这样:

WordPress divi主题
网站域中的 Robots.txt
网站域中的 Robots.txt

请记住,此文件仅适用于此特定域。 每个单独的子域或子页面都应该有自己的 robots.txt 文件。

谷歌解释了所有必要的规范 指导 但是,一般来说,它应该是一个以 UTF-8 编码的纯文本文件。 记录应由 CR、CR/LF 或 LF 分隔。 虽然每个搜索引擎都有自己的最大文件大小限制,但 Google 的最大文件大小为 500KB。

什么时候应该使用 Robots.txt 文件?

您网站的目标应该是使其尽可能易于抓取。 由于此文件会稍微中断抓取和索引编制,因此在决定您网站的哪个页面需要 robots.txt 文件时要谨慎。

与其总是使用 robots.txt 文件,不如更专注于保持您的网站干净且易于索引。

但是,需要 robots.txt 文件的情况并不总是可以避免的。 此功能可用于改善服务器问题或爬网效率问题的时间。

这些问题的示例包括:

  • 包含敏感内容或信息的页面
  • 未经审核的用户生成内容,例如评论
  • 具有非标准排序的类别页面会产生重复
  • 可以产生无限数量页面的内部搜索页面
  • 为每个日期生成一个新页面的日历页面

如果您的网站上有一个实例,Googlebot 可能会被困并浪费时间,您应该安装 robots.txt 文件。 这不仅会相同的索引时间,而且还会改善您的网站被索引和稍后排名的方式。

什么时候不应该使用 Robots.txt 文件?

虽然应该谨慎使用 robots.txt 文件,但在某些情况下绝对不应该考虑它们。

这些情况的例子是:

  • 阻止 Javascript/CSS:这些方面会极大地影响用户在您网站上的体验,但阻止它们可能会导致 Google 手动处罚。 这些处罚对您的排名产生的负面影响比其他任何事情都更深,应尽可能避免。
  • 当没有什么可以阻止时: 这个好像很明显。 如果您的站点具有干净且有条理的架构,则返回 404 状态不会像那些站点地图混乱或断开连接的站点那样大。
  • 阻止从暂存或开发站点访问. 最有可能的是,您不希望将暂存站点编入索引,但有比使用 robots.txt 文件更好的方法来实现该目标。 为了消除混淆,只需让管理团队之外的任何人都无法访问该站点。
  • 忽略 社交媒体 网络爬虫. Robots.txt 文件可能会影响可以从您的页面为社交媒体网络构建的片段。 在构建网站时请记住这一点。 当有人在社交媒体上分享您的网站时,您希望弹出一个片段,因此不要安装会阻止它的 robots.txt 文件。
  • 阻止 URL 参数. 直接在 Google 搜索控制台内处理任何特定于参数的问题。
  • 使用反向链接阻止 URL. 网站的权威很大程度上建立在反向链接之上。 当您使用 robots.txt 文件阻止这些反向链接时,您正在损害您的 SEO 流程一直在努力建立的权威。
  • 获取索引页面取消索引. 有时,不允许的页面可能仍会被编入索引。 不要使用 robots.txt 文件来停止该过程。

robots.txt 文件在抓取方面非常有用,但如果使用不当,它确实弊大于利。

fiverr建站WordPress程序员

如何格式化 Robots.txt 和 Technical Robots.txt 语法

在准备 robots.txt 文件时,需要遵循标准化的语法和特定的格式规则。

三个主要的 robots.txt 文件是:

  • 完全允许 – 表示允许抓取所有内容
  • 完全禁止 – 表示不允许抓取任何内容
  • 有条件的允许 – 这意味着您的 robots.txt 文件概述了哪些方面可供抓取以及哪些内容被阻止

创建 robots.txt 文件时还需要遵循一些规则。 让我们来探索一下。

评论

在文件中,您可以添加评论。 这些行以 # 开头,并被搜索引擎忽略。 它们仅存在以便您可以添加注释或评论,说明文件的每一行的作用以及添加的时间和原因。

特定用户代理令牌

您还可以为特定用户代理指定一组规则。 为此,请使用 “用户代理” 指示。 这将指示某些应用程序遵循这些规则,同时允许其他应用程序忽略您的指示。

独立站选品工具

评论最多的用户代理令牌是:

  • 谷歌机器人:所有谷歌抓取工具。
  • Googlebot 新闻:谷歌新闻的抓取工具。
  • 谷歌机器人图片:谷歌图片的爬虫。
  • 媒体合作伙伴-谷歌:谷歌的 Adsense 爬虫。
  • 推特机器人: Twitter 的爬虫。
  • 人脸机器人: Facebook 的爬虫。
  • 兵机器人: Bing 的爬虫。
  • Yandex: Yandex 的爬虫
  • 百度蜘蛛: 百度的爬虫
  • *:规则适用于每个机器人

虽然这些是一些最流行的特定用户代理令牌,但这个列表还远未完成。 请务必在每个搜索引擎的网站上查看更多信息: 谷歌, 推特, Facebook, 必应, Yandex, 和 百度.

Robots.txt 站点地图链接

您还可以在 robots.txt 文件中插入站点地图指令。 这将告诉搜索引擎在哪里可以找到站点地图。

站点地图将公开网站上的所有 URL,并进一步引导搜索引擎了解您的内容所在的位置。

虽然此添加有助于搜索引擎发现您的所有 URL,但如果未手动添加,您的站点地图将不会出现在 Bing 网站管理员工具或 Google 搜索控制台中。

高质量外链购买

模式匹配网址

如果您希望阻止搜索引擎抓取某个 URL 字符串,那么在 robots.txt 文件中使用模式匹配 URL 比包含完整 URL 列表更有效。

要使用此工具,您需要 $ 和 * 符号。

* 符号是一个通配符,可用于表示任意数量的任意字符。 它可以在 URL 字符串的任何区域中多次使用。

$ 符号表示 URL 字符串的结束。

例如:

JasperAI 10000字免费额度试用
    • *?*搜索= 将阻止以下 URL 字符串:/everything?any=parameter&search=word
  • /一种 将阻止任何以小写字母 a 开头的 URL
  • *.pdf$ 将阻止您网站上的所有 PDF 文件

模式匹配 URL 是阻止大量 URL 或相关 URL 的一种非常有效的方法。

Robots.txt 块

阻止特定的 内容 从被查看,你会想要使用 机器人.txt 不允许 规则。

当你插入 不允许: 在您的符号之前,搜索引擎会知道忽略这些符号生成的任何 URL。

例如,以下代码将阻止 Google 的机器人抓取您以小写字母 a 开头的任何网址:

用户代理:googlebot

WordPress备份工具updrafplus

禁止:/a

Robots.txt 允许

另一方面,如果您想明确指出要抓取的 URL,请添加 “允许:” 将覆盖一个 Robots.txt 不允许 规则并确保它被查看。

这可用于您希望查看一大组内容中的一页或两页,同时阻止该组的其余部分的情况。

Robots.txt 无索引

Robots.txt noindex 是一种工具,可让您管理搜索引擎索引,而无需使用爬网预算。 它确保特定的 URL 不会被编入索引。

然而,谷歌并没有正式承认 noindex,所以当它在今天工作时,有一个备份计划是很重要的,以防它明天停止工作。

常见 Robots.txt 问题

与任何强大的网络工具一样,robots.txt 也有其问题。 其中一些包括:

  • 区分大小写问题
  • 抓取延迟可能会导致问题
  • 不允许的反向链接会影响网站的权限
  • 使您的 robots.txt 文件保持最新,以便清楚地遵循您的指示
  • Robots.txt 不允许 将覆盖参数删除工具,所以不要一起使用它们
  • 不允许迁移的域会影响迁移的成功,并且重定向不会成功

如果处理得当,所有这些问题都很小,但如果被忽视,则可能会加剧更大的问题。 为尽量减少任何负面影响,请务必使您的 robots.txt 文件保持最新且准确。

使用 Robots.txt 的最佳 SEO 实践

搜索引擎优化 您可以遵循的最佳做法是确保准确地保存和测试您的 robots.txt 文件。

您可以在您的 Google Search Console 帐户中完成此任务。 使用测试工具,您可以查看网站的哪些部分正在被抓取,哪些部分未被抓取。

如果您发现您的某些内容没有被正确抓取,您就会知道您需要更新您的 robots.txt 文件。

此外,安装不当的 robots.txt 文件可能会导致 Google 完全忽略您的网站。 当您的网站未被抓取和编入索引时,它不会出现在任何网站上 搜索引擎结果 页。

总结 Robots.txt

Robots.txt 可以是一个非常酷的工具,可以以积极的方式使您的网站受益。 但是,如果使用不当,它可能会造成很大的损害。

确保您正确安装文件并定期更新,以查看此过程的最佳结果。

还在迷茫吗? 你总能找到一个 优质网站开发者 引导您完成整个过程!

5分钟生成10篇英文软文article forge软件试用
tiktok