Post by account_disabled on Dec 26, 2023 0:46:49 GMT -5
当然,因此我添加了另一个页签“URLs Overview”。 可以使用它来过滤返回非 200 状态码的 UR,由于我还包含了来自 Ahrefs 网站诊断(Site Audit)的数据,因此可以在“Inlinks”列中查看是否在内部链接到任何非 200 状态码的 URL。 如果看到很多指向该 URL 的内部链接,则可以使用内链建议报告(Internal link opportunities)来发现这些不正确的内部链接,只需将 URL 复制并粘贴到搜索栏中并选择“Target page”即可。 7. 检测浪费的抓取预算 要突出显示日志文件上那些不是抓取非 200 状态代码而导致浪费的抓取预算,最佳方式是找经常抓取的不可索引 URL(例如是规范化的或未编入索引的 URL)。 由于我们从日志文件和 Ahrefs 的网站诊断中添加了数据,因此发现这些 URL 很简单。 前往“Crawl budget wastage”页签,会发现许多抓取的 HTML 文件返回 200 但不可索引。 现在有了这些数据,你将需要调查机器人抓取 URL 的原因,以下是常见的原因: 在内部链接到。 错误地包含在 XML 站点地图中。 有来自外部网站的链接。 对于较大的网站,尤其是那些具有分面导航的网站,内部链接到许多不可索引的 URL 是很常见的。 如果此报告中的命中数非常高,并且你认为自己在浪费抓取预算,那需要删除指向网址的内部链接或使用 robots.txt 阻止抓取。 8. 监控重要的 URL 如果网站上有对你非常重要的特定 URL,可能需要查看搜索引擎抓取它们的频率。
“URL monitor”页签就是这样做的,它绘制最多可以添加五个 URL 的每日点击趋势。 还可以按机 WhatsApp 号码数据 器人类型进行筛选,从而轻松监控 Bing 或 Google 抓取 URL 的频率。 小提示. 还可以使用此报告检查最近重定向的 URL,只需在下拉列表中添加旧网址和新网址,即可查看 Googlebot 注意更改的速度。 通常这里的建议是,如果 Google 不经常抓取 URL,那将是一件坏事,但事实并非如此。 虽然 Google 倾向于更频繁地抓取热门网址,但如果网址不经常更改,它可能会更少抓取网址。 尽管如此,如果需要快速获取内容更改,例如在新闻网站的主页上,监控这样的 URL 还是很有帮助的。 事实上,如果发现 Google 过于频繁地重新抓取 URL,我会建议尝试通过将 <lastmod> 添加到 XML 站点地图等操作来帮助它更好地管理抓取速度,这是它的样子:然后可以在页面内容发生更改时更新 <lastmod> 属性,向 Google 发出重新抓取的信号。 提示 请注意,Google 对此属性提供了不同的反馈。2015 年 Gary Ilysses 表示它几乎被忽视了;2017 年 John 表示它已被使用。然而最近,在 2022 年 Gary 表示,“我们不打算使用它。” Google 的 XML 站点地图文档建议使用该属性,但如果它不准确就会被忽略。 9. 查找孤儿 URL 使用日志文件的另一种方法是发现孤立的 URL,也就是希望搜索引擎抓取和索引但内部未链接到的 URL。
我们可以通过检查 Ahrefs 的网站诊断来检查没有内部链接的 200 状态码 HTML 的 URL 来做到这一点。 可以看到我为此命名的“Orphan URL”报告。 这里有一个警告,由于 Ahrefs 没有发现这些 URL,但 Googlebot 发现了这些 URL,因此这些 URL 可能不是我们想要链接的 URL,因为它们是不可索引的。 在为你的 Ahrefs 项目设置爬网来源时,我建议使用“Custom URL list”功能复制和粘贴这些 URL。 这样,Ahrefs 现在将考虑在日志文件中找到的这些孤立 URL,并在下次抓取时向你报告问题: 10. 按目錄爬取監控 假设已经实现了结构化 URL 并且指出了网站的架构(例如,/features/feature-page/)。 这种情况下还可以根据目录分析日志文件,以查看 Googlebot 针对网站的特定部分是否抓取的更多。 我已经在 Google 表格的“Directories Overview”页签中部署了这种分析。 可以看到我还包含了有关目录内部链接的数量以及总自然流量的数据。 可以使用它来查看 Googlebot 是否花费更多时间来抓取低流量目录而不是高价值目录。 但同样请记住这是可能会发生的,因为特定目录中的某些 URL 比其他 URL 更频繁地更改。 不过如果你发现了一个奇怪的趋势,还是值得进一步调查的。
“URL monitor”页签就是这样做的,它绘制最多可以添加五个 URL 的每日点击趋势。 还可以按机 WhatsApp 号码数据 器人类型进行筛选,从而轻松监控 Bing 或 Google 抓取 URL 的频率。 小提示. 还可以使用此报告检查最近重定向的 URL,只需在下拉列表中添加旧网址和新网址,即可查看 Googlebot 注意更改的速度。 通常这里的建议是,如果 Google 不经常抓取 URL,那将是一件坏事,但事实并非如此。 虽然 Google 倾向于更频繁地抓取热门网址,但如果网址不经常更改,它可能会更少抓取网址。 尽管如此,如果需要快速获取内容更改,例如在新闻网站的主页上,监控这样的 URL 还是很有帮助的。 事实上,如果发现 Google 过于频繁地重新抓取 URL,我会建议尝试通过将 <lastmod> 添加到 XML 站点地图等操作来帮助它更好地管理抓取速度,这是它的样子:然后可以在页面内容发生更改时更新 <lastmod> 属性,向 Google 发出重新抓取的信号。 提示 请注意,Google 对此属性提供了不同的反馈。2015 年 Gary Ilysses 表示它几乎被忽视了;2017 年 John 表示它已被使用。然而最近,在 2022 年 Gary 表示,“我们不打算使用它。” Google 的 XML 站点地图文档建议使用该属性,但如果它不准确就会被忽略。 9. 查找孤儿 URL 使用日志文件的另一种方法是发现孤立的 URL,也就是希望搜索引擎抓取和索引但内部未链接到的 URL。
我们可以通过检查 Ahrefs 的网站诊断来检查没有内部链接的 200 状态码 HTML 的 URL 来做到这一点。 可以看到我为此命名的“Orphan URL”报告。 这里有一个警告,由于 Ahrefs 没有发现这些 URL,但 Googlebot 发现了这些 URL,因此这些 URL 可能不是我们想要链接的 URL,因为它们是不可索引的。 在为你的 Ahrefs 项目设置爬网来源时,我建议使用“Custom URL list”功能复制和粘贴这些 URL。 这样,Ahrefs 现在将考虑在日志文件中找到的这些孤立 URL,并在下次抓取时向你报告问题: 10. 按目錄爬取監控 假设已经实现了结构化 URL 并且指出了网站的架构(例如,/features/feature-page/)。 这种情况下还可以根据目录分析日志文件,以查看 Googlebot 针对网站的特定部分是否抓取的更多。 我已经在 Google 表格的“Directories Overview”页签中部署了这种分析。 可以看到我还包含了有关目录内部链接的数量以及总自然流量的数据。 可以使用它来查看 Googlebot 是否花费更多时间来抓取低流量目录而不是高价值目录。 但同样请记住这是可能会发生的,因为特定目录中的某些 URL 比其他 URL 更频繁地更改。 不过如果你发现了一个奇怪的趋势,还是值得进一步调查的。