数据湖和数据管道需要
Posted: Tue Jan 07, 2025 6:13 am
现实情况是,对于大多数用例,边缘仍然需要依赖某种类型的源。起源是代码的业务逻辑运行的地方,无论是网站的后端还是其他必须保持集中的复杂工作负载(出于方便、技术限制或成本)。
让我们看看哪些工作负载可能会留在云端(目前):
后端 API + RDMS - 通常是源数据库和生产数据库的核心(仅 AWS 上就有至少 10 种不同的数据库服务)。
海量存储——云提供了通过冷存储来降低成本的方法。
数据分析- 典型的数据仓库、一个集中式数据存储库来运行 秘鲁电话数据 查询和构建报告。
AI/ML - 有效且经济高效地进行训练需要大量数据集(而推理已经可以在边缘运行)。
HPC/模拟- 高性能计算按设计是分布式的,但通常位于同一数据中心或区域内,以减少网络开销。
CI/CD 管道- 这些管道可以在任何地方运行,但使用云可能更方便、更便宜(包括部署边缘服务的管道)。
简而言之,云擅长通用服务,支持几乎所有可能的工作负载类型,具有几乎无限的存储和水平可扩展性(在一个区域内或跨少量区域进行部署)。
相反,边缘简化了全局部署,提高了安全性,并支持云源缓存,同时支持延迟优化功能,而不会增加核心应用程序的复杂性。
换句话说,云计算和边缘计算是相辅相成的。它们将继续共存并解决不同的技术问题。
具有成本意识的架构
另一个需要考虑的有趣角度是成本。与托管服务的常见情况一样,您需要选择使用标准解决方案或设计、构建和维护您自己的全球分布式解决方案。
由于边缘针对全球内容分发进行了优化,因此通常会降低出口费用成本。然而,边缘数据存储必须分布在数百台边缘服务器上,这使得数据存储和操作显得比区域云服务更昂贵,区域云服务通常仅将数据复制到 2 或 3 个可用区。
让我们看一些数字,重点关注 3 个边缘服务(CloudFlare Workers KV、Fastly KV、CloudFront KeyValueStore)和 2 个云服务(AWS 上的无服务器 Redis 和AWS 上的 DynamoDB 按需)的键值存储:
让我们看看哪些工作负载可能会留在云端(目前):
后端 API + RDMS - 通常是源数据库和生产数据库的核心(仅 AWS 上就有至少 10 种不同的数据库服务)。
海量存储——云提供了通过冷存储来降低成本的方法。
数据分析- 典型的数据仓库、一个集中式数据存储库来运行 秘鲁电话数据 查询和构建报告。
AI/ML - 有效且经济高效地进行训练需要大量数据集(而推理已经可以在边缘运行)。
HPC/模拟- 高性能计算按设计是分布式的,但通常位于同一数据中心或区域内,以减少网络开销。
CI/CD 管道- 这些管道可以在任何地方运行,但使用云可能更方便、更便宜(包括部署边缘服务的管道)。
简而言之,云擅长通用服务,支持几乎所有可能的工作负载类型,具有几乎无限的存储和水平可扩展性(在一个区域内或跨少量区域进行部署)。
相反,边缘简化了全局部署,提高了安全性,并支持云源缓存,同时支持延迟优化功能,而不会增加核心应用程序的复杂性。
换句话说,云计算和边缘计算是相辅相成的。它们将继续共存并解决不同的技术问题。
具有成本意识的架构
另一个需要考虑的有趣角度是成本。与托管服务的常见情况一样,您需要选择使用标准解决方案或设计、构建和维护您自己的全球分布式解决方案。
由于边缘针对全球内容分发进行了优化,因此通常会降低出口费用成本。然而,边缘数据存储必须分布在数百台边缘服务器上,这使得数据存储和操作显得比区域云服务更昂贵,区域云服务通常仅将数据复制到 2 或 3 个可用区。
让我们看一些数字,重点关注 3 个边缘服务(CloudFlare Workers KV、Fastly KV、CloudFront KeyValueStore)和 2 个云服务(AWS 上的无服务器 Redis 和AWS 上的 DynamoDB 按需)的键值存储: