气象和空气质量 ETL 管道:该存储库演示了一个 ETL 管道,该管道从公共 API 中提取天气和空气质量数据,将其转换为干净、可解析的格式,并将其加载到 PostgreSQL 数据库中。
天气数据集成项目:一个端到端的 ETL 管道,用于提取天气数据、进行转换并将其加载到 PostgreSQL 数据库中。
课程:
创建 PostgreSQL 数据库:本课程提供 PostgreSQL 的全面指南,涵盖创建、管理 日本手机数据 和优化数据库的基本知识,这是管道天气数据的关键步骤。
Python 数据工程师:本课程涵盖基本的数据工程技能,,为使用 Python 创建管道提供了良好的起点。
发展的技能
使用Python编写数据管道应用程序
从外部来源收集数据 (API)
清理数据,使其一致且易于理解
创建数据库并在其中存储和组织数据
项目3:伦敦交通分析
该项目为有抱负的数据工程师提供了一个很好的起点。它向您介绍如何使用来自管理着超过 150 万次日常出行的重要公共交通网络的真实数据。
该项目的优势在于使用行业标准的数据仓库解决方案,例如 Snowflake、Amazon Redshift、Google BigQuery 或 Databricks。这些平台在现代数据工程中至关重要,可让您有效地处理和分析大型数据集。
通过分析交通趋势、流行方法和使用模式,您将学习如何从大数据集中提取有意义的见解,这是数据工程的核心能力。
资源
以下是一些资源,例如指导项目和课程,可以逐步指导您:
指导项目:
探索伦敦旅游网络:该指导项目教您如何分析伦敦公共交通数据,帮助您探索趋势、热门路线和使用模式。您将获得使用主要公共交通网络的真实数据进行大规模数据分析的经验。
课程: