spot_img
HomeWordPress服务器教程VPS教程使用 robots.txt 管理网络爬虫 – 博客 | 云服务器和托管新闻

使用 robots.txt 管理网络爬虫 – 博客 | 云服务器和托管新闻

JasperAI 10000字免费额度试用

许多年前,让您的网站被搜索引擎收录包括填写表格、注册网站和手动编辑您希望网站被收录的关键字。 随着搜索引擎网络爬虫或蜘蛛的出现,这一过程发生了变化。

什么是网络爬虫?

网络爬虫是一种自动程序,它在互联网上爬行,跟踪从一个网页到另一个网页的链接,索引内容并将其添加到他们的数据库中。 这意味着只要您的网站有来自搜索引擎已经知道的另一个网站的链接,那么它就会随着时间的推移找到您。 链接到您的网站越多,这种情况发生的速度就越快。
不幸的是,这些爬虫可能会成为您网站的大量访问者。 这是因为他们加载每个页面和文件以便为他们的数据库进行编目. 爬虫可能会导致您的 VPS 负载过高,并可能给访问者带来问题。 为了帮助解决这些负载问题,有一种标准化的方法来控制这些爬虫的行为,方法是在您网站的根目录中放置一个名为 robots.txt 的文件。 但是,没有任何强制要求遵守此文件。 因此,虽然大多数网络搜索引擎爬虫会遵守它,但有些爬虫可能不会。

robots.txt 格式

robots.txt 文件具有特定格式。 请参见下面的示例:
用户代理:googlebot
禁止:/图像
允许:/图像/元数据
爬行延迟:2
站点地图:/sitemap.xml

让我们按顺序查看每个指令行:

  • 我们从用户代理行开始:机器人或网络浏览器将使用用户代理来标识自己,并且各种搜索引擎爬虫将拥有自己的用户代理。 跟随用户代理指令的任何其他指令将被视为仅对给定的用户代理有效。 星号的用户代理
  • 将被视为指所有用户代理。 在我们的示例文件中,我们的指令与 googlebot 爬虫相关。
  • Disallow 指令用于告诉爬虫您不希望它加载的目录或文件。 需要注意的一点是,虽然爬虫不会加载文件,如果它遵循指向它们的链接,它仍然会在搜索结果中列出它们。 因此它不能用于阻止页面出现在搜索结果中。 Disallow 可能是所有爬虫都支持的唯一指令。 因此,在我们的示例中,我们禁止抓取 /images 目录。
  • Allow 指令可用于指定爬虫可以加载的不允许目录中的文件或目录。 虽然并非所有爬虫都支持这一点,但大多数都支持。 在我们的示例中,我们允许爬虫加载 /images/metadata 目录中的文件。
  • 下一个指令是 crawl-delay,它给出了一个爬虫在加载下一页之前等待的秒数。 这是减慢爬虫速度的最佳方法,但您可能不希望将数字设置得太高,除非您网站上的页面很少,因为这会显着限制爬虫每天可以加载的页面数量。

最后,我们有站点地图指令,可用于将爬虫引导到您网站的 XML 站点地图文件,它也可以用来帮助其对站点进行索引。

负责网络爬虫 您可以在 robots.txt 中填写尽可能多或少的用户代理部分,以控制爬虫访问您网站的方式。 从所有爬虫的一个用户代理部分开始,然后为特定爬虫添加单独的部分是有意义的,因为您发现它们会导致您的网站出现问题。 创建 robots.txt 后,值得对其进行测试以确保其有效。 如果语法中存在拼写错误或错误,可能会导致爬虫忽略您为其设置的规则。
幸运的是,有许多工具可以测试它,以及主要的搜索引擎,如谷歌提供的测试工具。

谷歌SEO优化服务
5分钟生成10篇英文软文article forge软件试用
siteground

【WordPress花园提醒您】如果想购买国外正版WordPress主题和插件,您需要一张VISA信用卡才能支付,这里我们推荐光大银行信用卡!赶快免费申请,别耽误了买插件哦!

guangda
WordPress花园官方账号
WordPress花园隶致力于为广大跨境电商和独立站爱好者提供优质的WordPress教程、Woocommerce教程、Facebook、Twitter、tiktok、Instagram教程和谷歌SEO教程等资料和对应的建站推广服务。关注‘哟派出海’公众号了解最新资讯。粉丝福利:Shopline免费独立站建设14天优惠 商务合作: [email protected]
RELATED ARTICLES