全球主机论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 53|回复: 0

在分析抓取数据时不要低估高级过滤的力量

[复制链接]
发表于 2018-1-26 13:24:12 | 显示全部楼层 |阅读模式
在分析抓取数据时不要低估高级过滤的力量
在帮助客户处理主要的算法更新、解决技术SEO问题等方面上的一些问题时候,我经常对大型站点进行审计。这几乎总是需要一个彻底的站点爬行(通常是在一个固定的生命周期中有几次爬行)。当您使用SEO时,搜索引擎会对网站造成严重破坏,为了集中您的分析,您需要对这些抓取数据进行切片和切割。
有了良好的数据过滤,您就可以知道经常出现可能导致严重问题的页面类型、部分或子域的问题所在。一旦出现问题,您可以对这些领域进行深入分析,以更好地理解核心问题,然后解决需要去解决的问题。
从搜索引擎蜘蛛的角度上看,我已经介绍了我在Search Engine Land的两个最爱的软件,DeepCrawl 和Screaming Frog。这两种工具都是优秀的工具,我通常在企业爬行时使用“DeepCrawl”,同时也会使用“Screaming Frog”来进行爬行,这是一种更专注的方法。(注:我会使用DeepCrawl在访问客户顾问委员会。)在我看来,使用DeepCrawl和Screaming Frog的组合就像是使用出了杀手锏,我经常会说当使用这两种工具时,效果会加倍。
下面,我将介绍几个在这两种工具中使用过滤的例子,这样您就可以对我所引用的内容有大致的了解和感觉。通过过滤抓取数据,您就可以对站点的特定区域进行隔离和处理了,以进行进一步的分析。当您开始这样做的时候,您也不会不放心了。所以让我们开始吧。更多文章阅读:国外VPS主机cn.bluehost.com
可转位的页面
让我们从一个基本的,但是很重要的过滤器开始。在几个级别上,内容质量问题可能会有很大的问题,而且您肯定希望确保这些问题不会出现在可索引的页面上。当谷歌从质量的角度评估一个网站时,它会把您的整个网站都考虑进去。这当然也会包括所有被索引的页面。这是来自John Mueller的一段视频来解释这个问题的。
因此,当您在站点上出现问题时,最好是要通过可索引的URLs来过滤该列表,以便将您的分析集中在可能损害站点质量的页面上。但是我并不是说要忽略其他的URLs,因为它们没有被索引!您也应该完全关注他们。请记住,用户正在与这些页面进行交互,您不希望与用户合作地不愉快。在深入研究内容和/或其他质量问题时,隔离可以被索引的页面是很聪明的做法。
精简的内容+正则表达式=很棒的内容
对于喜欢正则表达式的人来说,我有好消息要告诉你们。DeepCrawl支持高级过滤的正则表达式。因此,您可以选择一个过滤器,然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些筛选。对了,有一个“不匹配正则表达式”筛选器可以开始清除您想要排除的URLs 和包含的URLs,这是非常棒的方法。
例如,让我们从使用管道字符开始,在过滤器中组合三个不同的目录形式。管道字符在正则表达式中则表示“或者”。
或者,排除特定的目录,然后将重点放在仅以两个或三个字符结尾的URLs上的方法怎样(这是我认为在特定审计期间从内容的角度看问题的一个URLs 的实际例子):
或者,将页面类型的正则表达式与字数相混合,以确定页面类型或目录的真正精简的页面的方法怎么样?这就是为什么过滤功能如此强大(以及节省时间)的原因。
您可以想象到这幅画面。您可以包含或排除任何类型的URLs或模式。您可以在过滤器上层层筛选,以提高您的报告。聚焦大型的爬行效果是令人惊奇的。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|小黑屋|全球服务器论坛

GMT+8, 2024-10-9 18:18 , Processed in 1.560003 second(s), 18 queries , File On.

Powered by Discuz! X3.5

Copyright © 2001-2024 Tencent Cloud.

快速回复 返回顶部 返回列表