日志

如何在不影响谷歌的情况下检查哪些URLs被索引：一次后续行动 ...

已有 195 次阅读2018-3-7 16:42 |个人分类:互联网资讯| 免费虚拟主机

　　我们如何确定我们的站点页面中没有与Google的指南相冲突的页面没有被索引呢？专栏作家Paul Shapiro分享了他的方法。

　　Paul Shapiro于2017年1月27日下午12点20分发表

早在2016年10月，我就写过如何使用Python脚本来确定谷歌在SERPs中是否已经索引了一个页面。结果是，谷歌网站管理员趋势分析师Gary Illyes对脚本所使用的技术并不十分满意。因此，我不能赞同这个方法：

不久之后，Greenlane SEO公司的Sean Malols和他的团队在Google Sheets基础上开发了一个类似的工具（其中包括InfiniteSuggest），而Googler John Mueller对此表示保留：

　　@greenlaneseo这是个黑帽工具还是遵守网站管理员指南和robots.txt？（只是好奇）

　　我如何才能知道哪些页面没有被谷歌索引，并且以一种不违反谷歌规则的方式进行索引呢？谷歌没有指出是否在Google Search Console中索引了一个页面，不允许我们搜索结果来得到答案，也不希望间接从一个没有文档的API中得到答案。（这就是Sean Malseed的聪明的解决方法，并采取了一些变通办法。）让我们探索一些解决方案。免费虚拟主机https://www.webhostingtalk.cn

　　分析解决方案

　　Mark Edmondson提供了一个R脚本解决方案，通过以下步骤：

　　它验证与您的谷歌分析帐户。

　　它查看您的站点的XML站点地图中是否有页面，但是在谷歌分析中没有找到自然的谷歌搜索结果，而在过去的30天（或更多）天中。

　　该方法假定，如果在谷歌自然搜索结果的分析中没有找到URL，那么它很可能没有被谷歌索引。

　　插曲：如何在没有R的情况下做到这一点

　　虽然我个人喜欢脚本解决方案，但我知道很多人不喜欢。你不需要想出R来做这个分析。您可以很容易地转到谷歌分析并执行类似的分析 —或者更容易地转到Google Analytics Query Explorer并使用这些设置运行它。下载这个表格作为TSV：

　　然后您可以在本地下载XML站点地图并将其打开到Excel中。接下来，将其拖动到Excel窗口中，您将看到“Import XML”对话框。如果它要求您“在不应用样式表的情况下打开该文件”就请选择“Ok”。

　　然后，选择打开文件“作为一个XML表”：

　　将xml作为表导入excel表格中

　　您可以删除无关的列，只保留“ns1:loc”（或“loc”）列：

　　然后，您只需要做一个VLOOKUP或其他形式的Excel匹配，并在站点地图中找到分析数据中不存在的URLs。

　　我认为这是一个简单而聪明的解决方案，尽管这是个很好的起点，但我担心它不能准确地显示哪些页面是由谷歌索引的。即使页面被索引，接收很少或没有流量也不是很罕见。这可能表明页面没有索引，但它也可能只是表明页面有标记问题，已经变得不相关，需要进行一些优化以提高其可见性，或者根本不在XML站点地图中。（或者，您可以使用爬网，而不是XML站点地图来进行这些比较。

　　日志文件解决方案

　　服务器日志文件是关于您的网站的一个极好的数据来源，通常是无法通过其他方式访问的。从这些日志文件中可以获得的许多信息之一是，某个特定的机器人是否访问了您的网站。在我们的例子中，我们关心的机器人是Googlebot。

　　通过分析我们的服务器日志文件，我们可以确定Googlebot是否曾经访问过我们网站上的某个页面。如果Googlebot从未访问过某个页面，那么它就不可能被谷歌索引。我个人倾向于为此使用KNIME，使用内置的Web Log Reader节点，但是您可以随意使用您喜欢的解决方案。

　　确保验证Googlebot，而不是简单地依赖报告的用户代理。许多机器人会欺骗Googlebot的用户代理，这可能会使你的发现无效。为了避免这种情况，我在KNIME中使用了一个简单的Python片段：

　　输入插字

　　尝试：

　　Output_table［dnshost］=socket.gethostbyaddr（str（ipaddressvariable））［0］

　　例外：

　　Output_table［dnshost］=“error”（错误）

　　如果这有点过头了，我建议您检查一下Screaming Frog SEO日志文件分析器 —或者，查看企业解决方案Botify。

　　像谷歌分析解决方案一样，日志文件分析也不是万无一失的。Googlebot可能访问一个页面，但实际上并没有将其包含在它的索引中（《meta name=“robots”content=“noindex，after”），但是它将帮助我们缩小可能没有索引的网页的列表。

　　合并数据

　　为了缩小谷歌可能无法尽可能多地索引的页面的列表，我建议使用谷歌分析技术获取的数据与上面的日志文件分析方法结合起来。

　　一旦我们有了自己的列表，我们可以通过手工搜索“ 信息： ”来做一些抽查，这不会让谷歌感到不安。手动检查要容易得多，因为我们已经能够显著地缩小列表。

　　总结

　　由于谷歌没有提供关于网页是否被索引的工具或数据，而且我们也不被允许使用我之前写过的自动化解决方案，所以我们必须依靠缩小我们的URLs列表，而这些URLs可能没有被索引。

　　我们可以通过检查我们网站上的网页的分析数据来做到这一点，但没有接收到的自然谷歌流量，并查看服务器日志文件。从那里，我们可以手动抽查我们的简短的URLs列表。

　　这不是一个理想的解决方案，但它可以完成任务。我希望将来谷歌会提供一个更好的方法来评估哪些页面被索引了，哪些没有。

　　欢迎与我们交流您的想法。

路过

鸡蛋

鲜花

握手

吾爱猛如虎的个人空间 http://bbs.xwidea.com/?4667 [收藏] [复制] [分享] [RSS]

日志

如何在不影响谷歌的情况下检查哪些URLs被索引：一次后续行动 ...

全部作者的其他最新日志

评论 (0 个评论)

吾爱猛如虎