谜致力打造黑帽SEO培训行业第一品牌
SEO优化服务:正规SEO培训教程、黑帽SEO培训技术
SEO行业资讯

当前位置:主页 > SEO行业资讯 > 爬行预算在过去两年中的变化情况如何

爬行预算在过去两年中的变化情况如何

来源:黑帽SEO培训 dozu.com.cn发布时间:2019/05/24

了解抓取预算是SEO中经常被忽视的部分。但是我的团队写了一篇关于这个话题的两年前的帖子,实际上是SEO行业的古老历史。因此,在本文中,我将解释我们对爬网预算的理解在过去几年中是如何变化的,保持不变的原因,以及这对于爬网预算优化工作的意义。
什么是抓取预算?为什么重要?
旨在从网页收集信息的计算机程序称为网络蜘蛛,爬虫或机器人。这些可以是恶意的(例如,黑客蜘蛛)或有益的(例如,搜索引擎和web服务蜘蛛)。例如,我公司的反向链接索引是使用名为BLEXBot的蜘蛛构建的,每天爬行最多75亿个页面来收集反向链接数据。
当我们谈论抓取预算时,我们实际上是在讨论搜索引擎蜘蛛抓取您的网页的频率。根据谷歌的说法,抓取预算是您的抓取速度限制(即确保Googlebot等机器人不会经常抓取您的网页以至于损害您的服务器的限制)和您的抓取需求(即Google希望抓取的数量)的组合你的网页)。
优化抓取预算意味着增加蜘蛛可以“访问”每个页面,收集信息并将数据发送到负责索引和评估内容质量的其他算法的频率。简而言之,您的抓取预算越多,在您对网站进行更改时,您的信息在搜索引擎索引中的更新速度就越快。
但别担心。除非您运行的是大型网站(数百万或数十亿的网址),否则您可能永远不必担心抓取预算:
IMO抓取预算被高估了。大多数网站从不需要担心这一点。这是一个有趣的话题,如果您正在抓取网络或运行数十亿个网址,这一点非常重要,但对于普通网站所有者而言则更少。
那么为什么还要为抓取预算优化而烦恼呢?因为即使您不需要改进抓取预算,这些提示也包含许多改善网站整体运行状况的良好做法。
我认为值得清楚这一点。删除25个无用的页面对于更精简的站点来说非常有用,并且可以帮助用户迷失在那里,但这不是爬行预算问题。人们只会为SEO奖金吗?我们如何帮助您帮助他们?
而且,正如约翰·穆勒在同一篇文章中解释的那样,拥有更精简网站的潜在好处包括更高的转换率,即使它们不能保证影响页面在SERP中的排名。
当然,但值得对潜在影响的大小诚实。如果我们可以从您的网站抓取50k页/天,总共将从1000页增加到900页,以便更改任何内容进行抓取?不是真的,但也许会增加转换率,对吧?
什么保持不变?
在2018年12月14日的Google网站管理员环聊中,John被问及如何确定他们的抓取预算。他解释说,由于爬行预算不是面向外部的指标,因此很难确定。
他还说:
“[抓取预算]随着时间的推移会发生很大的变化。我们的算法非常有活力,他们试图对你在网站上所做的更改做出相当快速的反应......这不是一次性分配给网站的东西。“
他用几个例子说明了这一点:
如果您执行了诸如不正确设置CMS之类的操作,则可以减少爬网预算。Googlebot可能会注意到您的网页速度有多慢,并且会在一两天内放慢速度。
如果您改进了网站(通过转移到CDN或更快地提供内容),您可以增加抓取预算。Googlebot会注意到您的抓取需求会上升。
这与我们几年前对爬行预算的了解一致。优化抓取预算的许多最佳做法今天同样适用:
1.不要阻止重要页面
您需要确保所有重要页面都可以抓取。如果您的.htaccess和robots.txt禁止搜索机器人抓取重要网页的能力,则内容不会为您提供任何价值。
相反,您可以使用脚本来引导搜索机器人远离不重要的页面。请注意,如果您不允许大量内容,或者受限制的网页收到大量传入链接,Googlebot可能会认为您犯了一个错误,并且可能仍会抓取这些网页。
页面<head>部分中的以下元标记会阻止大多数搜索引擎机器人对您网站上的网页编制索引:<meta name =“robots”content =“noindex”>
您还可以阻止Google使用以下元标记抓取您的网页:<meta name =“googlebot”content =“noindex”>
或者,您可以返回一个“noindex”X-Robots-Tag标头,指示蜘蛛不要将您的页面编入索引:X-Robots-Tag:noindex
2.尽可能坚持使用HTML
Googlebot在抓取JavaScript,Flash和XML等富媒体文件方面做得更好,但其他搜索引擎机器人仍然在努力处理大量这些文件。我建议尽可能避免这些文件支持纯HTML。您可能还希望为搜索引擎机器人提供严重依赖这些富媒体文件的页面文本版本。
3.修复长重定向链
每个重定向的网址都会浪费您的抓取预算。更糟糕的是,如果搜索机器人连续遇到不合理数量的301和302重定向,则可能会停止重定向。尽量限制您在网站上重定向的次数,并且连续使用不超过两次。
4.告诉Googlebot有关网址参数的信息
如果您的CMS生成了大量动态网址(正如许多流行网站所做的那样),那么您可能会浪费您的抓取预算 - 甚至可能会提出有关重复内容的危险信号。要向Googlebot通知您的网站引擎或CMS添加的不会影响网页内容的网址参数,您只需向Google Search Console添加参数(转到抓取>网址参数)。
5.纠正HTTP错误
约翰在2017年末纠正了一个常见的误解,澄清404和410页确实使用了你的抓取预算。由于您不希望在错误页面上浪费爬网预算 - 或者让尝试访问这些页面的用户感到困惑 - 因此最好搜索HTTP错误并尽快修复它们。
6.使您的站点地图保持最新
干净的XML站点地图将帮助用户和机器人了解内部链接的引导位置以及网站的结构。您的站点地图应该只包含规范网址(站点地图是Google所关注的规范化信号),并且它应与您的robots.txt文件保持一致(不要告诉蜘蛛抓取您阻止它们的网页)。
7.使用rel =“canonical”以避免重复内容
说到规范化,你可以使用rel =“canonical”告诉机器人哪个URL是页面的主要版本。但是,确保页面的各个版本中的所有内容排成一行符合您的最佳利益 - 以防万一。自从谷歌在2016年推出移动优先索引以来,他们经常默认将移动版本的网页作为规范版本。
8.使用hreflang标签指示国家/语言
机器人使用hreflang标签来了解您网页的本地化版本,包括特定于语言和区域的内容。您可以使用HTML标记,HTTP标头或站点地图向Google指示本地化页面。去做这个:
您可以将以下链接元素添加到页面的标题中:<link rel =“alternate”hreflang =“ lang_code ”href =“ url_of_page ”/>
您可以通过指定受支持的语言/区域代码,返回一个HTTP标头,告知Google页面上的语言变体(您也可以将其用于非HTML文件,如PDF)。您的标题格式应如下所示:Link:< url1 >; REL =”备用”; hreflang =“ lang_code_1 ”
您可以将<loc>元素添加到特定URL,并指示包含页面的每个本地化版本的子条目。此页面将教您更多有关如何设置语言的信息,以及有助于搜索引擎机器人抓取您网页的区域特定页面。
改变了什么?
自2017年我们撰写原创文章以来,有两件大事发生了变化。
首先,我不再推荐RSS提要。随着许多用户回避社交媒体算法,RSS在剑桥Analytica丑闻之后出现了小小的复苏 - 但它没有得到广泛使用(除了可能是新闻记者)并且它并没有显着回归。
其次,作为原始文章的一部分,我们进行了一项实验,该实验表明外部链接和爬网预算之间存在很强的相关性。它似乎表明,增加链接配置文件可以帮助您的网站抓取预算按比例增长。
上述Google网站管理员环聊似乎证实了这一发现; 约翰提到网站的抓取预算“基于我们方面的需求。”
但是当我们试图在最后更新研究时,我们无法重新创建那些原始发现。相关性非常宽松,表明自2017年以来Google的算法已经变得更加复杂。
也就是说,请不要读这个并想一想,“太好了,我可以停止建立链接!”
链接仍然是谷歌和其他搜索引擎用来判断相关性和质量的最重要信号之一。因此,虽然链接构建对于提高爬网预算可能并不重要,但是当您想要提高SEO时,它应该是优先考虑的事项。
网站首页| 关于谜 | SEO行业资讯 |

© 2009-2019 【谜】黑帽SEO技术培训服务官网版权所有 地图

宗旨:教会初学者控制白帽与黑帽间的【度】