一年的SEO案例研究:您需要了解的关于Googlebot的内容

2019.09.04 - 象牙白

Googlebot

编者注: JetOctopus爬虫首席执行官Serge Bezborodov就如何使您的网站吸引Googlebot提供专家建议。本文中的数据基于为期一年的研究和3亿个爬网页面。

几年前,我试图通过500万页增加我们的工作聚合网站的流量。我决定使用搜索引擎优化代理服务,期望流量将通过屋顶。但是我错了。我没有进行全面审核,而是阅读了塔罗牌。这就是为什么我回到原点并创建了一个网页爬虫来进行全面的页面搜索引擎优化分析。

我已经在Googlebot上监视了一年多,现在我已经准备好分享有关其行为的见解。我希望我的观察结果至少可以说明网络抓取工具的工作原理,最多可以帮助您有效地进行页面优化。我收集了最有意义的数据,这些数据对于新网站或具有数千页的网站都很有用。

您的页面是否出现在SERP中?
要确定搜索结果中的哪些页面,您应该检查整个网站的索引能力。然而,在一个1000多万页的网站上对每个URL的分析花费了大量的金钱,大约和新车一样多。

让我们使用日志文件分析。我们通过以下方式与网站合作:我们像搜索机器人那样抓取网页,然后我们分析半年收集的日志文件。日志显示机器人是否访问该网站,哪些页面被抓取以及机器人访问这些页面的时间和频率。

抓取是搜索机器人访问您的网站,处理网页上的所有链接并将这些链接排成一行以进行索引的过程。在抓取过程中,机器人会将刚处理过的网址与索引中已有的网址进行比较。因此,机器人刷新数据并添加/删除搜索引擎数据库中的一些URL,以便为用户提供最相关和最新鲜的结果。

现在,我们可以很容易地得出这些结论:

除非搜索机器人在URL上,否则此URL可能不在索引中。
如果Googlebot每天多次访问该网址,则该网址具有高优先级,因此需要您特别注意。
总而言之,这些信息揭示了阻碍您网站有机增长和发展的因素。现在,您的团队可以明智地优化网站,而不是盲目操作。

我们主要与大型网站合作,因为如果您的网站很小,Googlebot迟早会抓取您的所有网页。

相反,当抓取工具访问对网站管理员不可见的网页时,包含100个ooo-plus网页的网站会遇到问题。有价值的抓取预算可能会浪费在这些无用甚至有害的页面上。同时,机器人可能永远找不到您有利可图的页面,因为网站结构中存在混乱。

抓取预算是Googlebot准备在您的网站上花费的有限资源。创建它是为了优先分析要分析的内容和何时分析。抓取预算的大小取决于许多因素,例如您的网站规模,结构,用户查询的数量和频率等。

请注意,搜索机器人对完全抓取您的网站不感兴趣。

搜索引擎机器人的主要目的是以最小的资源损失为用户提供最相关的答案。Bot为主要目的抓取尽可能多的数据。因此,帮助机器人获取最有用和最有利可图的内容是您的任务。

在Googlebot上进行间谍活动
在过去的一年中,我们在大型网站上扫描了超过3亿个URL和60亿个日志行。根据这些数据,我们追踪了Googlebot的行为,以帮助回答以下问题:

什么类型的页面被忽略?
经常访问哪些页面?
机器人值得关注的是什么?
什么没有价值?
以下是我们的分析和调查结果,而不是重写Google网站管理员指南。事实上,我们不会提供任何未经证实和不合理的建议。为方便起见,每个点都基于事实统计数据和图表。

让我们切入追逐并找出:

对Googlebot真正重要的是什么?
什么决定机器人是否访问该页面?
我们确定了以下因素:

与指数的距离
DFI代表距离索引,以及您的URL在点击中对主/根/索引URL的距离。这是影响Googlebot访问频率的最重要标准之一。这是一个教育视频,以了解有关DFI的更多信息。

请注意,DFI不是URL目录中的斜杠数,例如:

下面您可以看到Googlebot对其DFI的URL的兴趣在过去一个月和过去六个月中逐渐减少。

如您所见,如果DFI为5 t0 6,则Googlebot仅抓取一半网页。如果DFI更大,处理页面的百分比会减少。表中的指标统一为1800万页。请注意,数据可能会根据特定网站的利基而有所不同。

该怎么办?
很明显,在这种情况下,最好的策略是避免DFI超过5,构建易于浏览的网站结构,特别注意链接等。

事实是,这些措施对于100多个网页来说真的非常耗时。通常,大型网站都有重新设计和迁移的悠久历史。这就是为什么网站管理员不应该只删除DFI为10,12甚至30的页面。此外,从频繁访问的页面插入一个链接将无法解决问题。

应对长DFI的最佳方法是检查和估计这些URL是否相关,有利可图以及它们在SERP中的位置。

具有长DFI但在SERP中具有良好位置的页面具有很高的潜力。为了增加高质量页面的流量,网站管理员应该插入下一页的链接。一到两个链接不足以取得切实进展。

您可以从下面的图表中看到,如果网页上有超过10个链接,Googlebot会更频繁地访问网址。

链接

事实上,网站越大,网页上链接的数量就越多。这些数据实际上来自100多万页的网站。

如果您发现有利可图页面上的链接少于10个,请不要惊慌。首先,检查这些页面是否具有高质量和有利可图。执行此操作时,请在高质量页面上插入链接,不要急于进行短迭代,在每个步骤后分析日志。

内容大小
内容是SEO分析中最受欢迎的方面之一。当然,您网站上的相关内容越多,您的抓取比率就越高。您可以在下面看到Googlebot对少于500字的网页的兴趣有多大。

该怎么办?
根据我的经验,所有少于500字的页面中有近一半是垃圾页面。我们看到一个案例,一个网站包含70,000页,只列出了衣服的大小,所以这些页面中只有一部分在索引中。因此,首先检查您是否确实需要这些页面。如果这些网址很重要,您应该在其上添加一些相关内容。如果您无需添加任何内容,请放松并保留这些URL。有时最好什么也不做,而不是发布无用的内容。

其他因素
以下因素可能会显着影响爬网比率:

加载时间
网页速度对于抓取和排名至关重要。Bot就像一个人:它讨厌等待网页加载太长时间。如果您的网站上有超过100万个页面,搜索机器人可能会下载5页,加载时间为1秒,而不是等待一个页面在5秒内加载。

该怎么办?
事实上,这是一项技术任务,并没有“一种方法适合所有”的解决方案,例如使用更大的服务器。主要想法是找到问题的瓶颈。你应该理解为什么网页加载缓慢。只有在理由揭晓后,您才能采取行动。

独特和模板内容的比例
独特和模板化数据之间的平衡很重要。例如,您有一个网站,其中包含各种宠物名称。您真正可以收集多少相关和独特的内容?

Luna是最受欢迎的“名人”狗名,其次是Stella,Jack,Milo和Leo。

搜索机器人不喜欢将资源花在这些类型的页面上。

该怎么办?
保持平衡。用户和机器人不喜欢访问具有复杂模板,一堆外发链接和少量内容的页面。

孤儿页面
孤立页面是不在网站结构中的URL,您不了解这些页面,但这些孤立页面可能被机器人抓取。为清楚起见,请查看下图中的 Euler’s Circle:

您可以看到年轻网站的正常情况,其结构暂时没有改变。您和抓取工具可以分析900,000个页面。抓取工具处理了大约500,000个网页,但Google不知道这些网页。如果您将这些500,000个网址设为可索引,那么您的流量肯定会增加。

注意:即使是一个年轻的网站也包含一些页面(图片中的蓝色部分),这些页面不在网站结构中,而是由bot定期访问。

这些页面可能包含垃圾内容,例如无用的自动生成的访问者查询。

但是大型网站很少如此准确。通常具有历史记录的网站如下所示:

这是另一个问题:Google比您更了解您的网站。可以删除页面,JavaScript或Ajax上的页面,损坏的重定向等等。一旦我们遇到由于程序员的错误而在站点地图中出现500,000个断链的列表的情况。三天后,发现并修复了该漏洞,但Googlebot已经访问了这些已损坏的链接半年了!

通常,您的抓取预算 经常会浪费在这些孤儿页面上。

该怎么办?
有两种方法可以解决这个潜在的问题:首先是规范:清理混乱。组织网站的结构,正确插入内部链接,通过添加索引页面的链接,向DFI添加孤立页面,为程序员设置任务并等待下一次Googlebot访问。

第二种方式是提示:收集孤立页面列表并检查它们是否相关。如果答案为“是”,则使用这些网址创建站点地图并将其发送给Google。这种方式更容易,更快,但只有一半的孤立页面将在索引中。

下一级
搜索引擎算法已经改进了二十年,并且认为搜索爬行可以通过一些图表来解释是天真的。

我们为每个页面收集了200多个不同的参数,我们预计这个数字将在年底前增加。想象一下,您的网站是100万行(页面)的表格,并将这些行乘以200列,简单的样本不足以进行全面的技术审计。你同意吗?

我们决定深入挖掘并使用机器学习来找出影响Googlebots在每种情况下爬行的因素。

首先,网站链接至关重要,而内容是另一方面的关键因素。

这项任务的主要目的是从复杂而庞大的数据中获得简单的答案:您网站上的哪些内容最能影响指数化?哪些URL集群具有相同的因素?小号但愿你可以与他们全面合作。

在我们的HotWork聚合器网站上下载和分析日志之前,关于机器人可见的孤儿页面的故事对我来说似乎不切实际。但实际情况让我更加惊讶:Crawl显示500页,301重定向,但Yandex发现700,000页具有相同的状态代码。

通常,技术极客不喜欢存储日志文件,因为这些数据会“超载”磁盘。但客观地说,在大多数每月访问量高达1000万的网站上,日志存储的基本设置完美无缺。

说到日志量,最好的解决方案是创建存档并在Amazon S3-Glacier上下载(您只需1美元即可存储250 GB的数据)。对于系统管理员来说,这项任务就像制作一杯咖啡一样简单。将来,历史日志将有助于揭示技术错误并估计Google更新对您网站的影响。

- END -

40
0

2019真心祝福:跨年了,希望所有的朋友性生活愉快

2019元旦跨年

编者注: JetOctopus爬虫首席执行官Serge Bezborodov就如何使您的网站吸引Googleb […]