6. 什么是缓慢变化维度 (SCD)?您如何处理它们?
缓慢变化的维度 (LCD) 是指维度表中的数据随时间逐渐变化。例如,客户的地址可能会发生变化,但必须保留历史数据才能准确报告。
SCD 主要分为三种类型:
类型1:用新数据覆盖旧数据(例如直 巴拉圭电话数据 接更新地址)。
类型 2:通过添加具有开始日期和结束日期的新记录来维护历史数据。
类型 3:通过为旧值和当前值添加新字段来限制历史数据。
盖伊
描述
使用示例
应用重点
SCD 1型
用新数据覆盖旧数据
更正客户名称中的拼写错误
更新操作
SCD 2型
通过添加新记录来维护历史数据
跟踪客户地址随时间的变化
插入包含开始日期和结束日期的新行
SCD 3型
使用附加列保留有限的历史数据
跟踪员工的“前任”和“当前”部门
添加旧值和新值的列
了解这些类型对于设计满足当前和历史信息需求的数据仓库非常重要。
请阅读掌握缓慢变化的维度博客文章了解更多信息。
7. 您能否描述一下您使用 Informatica、Talend 或 AWS Glue 等 ETL 工具的体验?
面试官经常寻找 ETL 工具的实践经验,因为它们在数据仓库项目中发挥着重要作用。分享具体例子,例如