Page 1 of 1

如何测试数据质量?

Posted: Sat Apr 05, 2025 3:51 am
by rumana777
作为公共网络数据提供商,拥有完善的自动化数据质量检查机制至关重要。那么我们该怎么做呢?首先,我们根据数据类型区分测试。测试命名可能看起来有些混乱,因为它最初是为内部使用而设计的,但它有助于我们了解我们正在测试的内容。

我们有两种类型的数据:

静态数据。静态意味着我们不会实时抓取数据,而是使用静态装置。
动态数据。动态意味着我们实时从网络上抓取数据。
然后,我们根据数据质量检查的类型进一步区分我们的测试:

固定装置测试。这些测试使用固定装置来检查数据质量。
覆盖率测试。这些测试使用一系列规则来检查数据质量。
让我们更详细地看一下每个测试。

静态夹具测试
如前所述,这些测试属于静态数据类别,这意味着我 电话号码库 们不会实时抓取数据。相反,我们使用之前保存的静态装置。

静态装置是我们之前保存的输入数据。在大多数情况下,它是我们想要抓取的网页的 HTML 文件。对于每个静态装置,我们都有一个相应的预期输出。这个预期输出是我们期望从解析器获取的数据。

静态夹具测试步骤
测试的工作原理如下:

解析器接收静态装置作为输入。
解析器处理装置并返回输出。
测试检查输出是否与预期输出相同。这不是一个简单的 JSON 比较,因为某些字段预计会发生变化(例如上次更新日期),但它仍然是一个简单的过程。
我们在合并请求的 CI/CD 管道中运行此测试,以检查我们对解析器所做的更改是否有效以及解析器是否按预期工作。如果测试失败,我们就知道我们弄坏了某些东西,需要修复它。

静态装置测试无论从过程复杂性还是实现角度来说都是最基本的测试,因为它们只需要使用静态装置运行解析器,并使用相当简单的 Python 脚本将输出与预期输出进行比较。

尽管如此,它们仍然非常重要,因为它们是抵御重大变化的第一道防线。

但是,静态装置测试无法检查抓取是否按预期进行,也无法检查页面布局是否保持不变。这就是动态测试类别的用武之地。