将数据拆分为多个文件
Posted: Thu Jan 23, 2025 3:32 am
1. 将数据从 Postgres 复制到本地驱动器
第一步是将数据从 Postgres 导出到本地驱动器。为此,请在psql终端中使用COPY命令。将要复制的数据复制到 CSV 文件并将其导出到本地驱动器。
Psql 有两个不同的 COPY 命令:/copy 和 COPY。
/copy 是一个元命令,允许您复制到客户端服务器。另一方面,COPY用于复制服务器端文件。您需要使用 COPY 将 CSV 导出到本地驱动器。
该命令如下所示:
COPY public.customers TO '/home/john/customers.csv' FORMAT CSV HEADER true;
复制数据时,请确保在命令末尾指定 CSV。
以下是关于使用 COPY 将 Postgres 数据导出为 CSV 文件的简短介绍视频。
接下来,使用 *nix 类系统上的split 程序将单个 CSV 文件拆分为多个文件。此步骤用于准备要上传到 S3 的数据,然后上传到 Redshift。Amazon强烈建议将数据拆分为多个文件,以利用 AWS 的并行处理能力。确保将 CSV 文件拆分为与 Redshift 集群的切片数相同的文件数。
例如,每个 ra3.4xlarge 计算节点有 4 个切片,每个 ra3.16xlarge 计算节点有 16 个切片。如果您的集群有两个 ra3.4xlarge 计算节点,则需要将 CSV 文件拆分为八个单独的文件。
另外,确保每个文件的大小大致相同 - 压缩后 喀麦隆电话数据 在 1 MB 到 1 GB 之间。
3.上传文件到S3
接下来,将 CSV 文件加载到 S3。
以下是来自AWS的说明的副本:
在 Amazon S3 中创建一个存储桶。
登录 AWS 管理控
单击创建存储桶。
在“创建存储桶”对话框的“存储桶名称”框中,键入存储桶名称。您选择的存储桶名称在 Amazon S3 中所有现有存储桶名称中必须是唯一的。一种帮助确保唯一性的方法是在存储桶名称前加上组织名称作为前缀。存储桶名称必须符合某些规则。有关更多信息,请转到Amazon Simple Storage Service 开发人员指南中的存储桶限制和局限性。
选择区域。在与您的集群相同的区域中创建存储桶。如果您的集群位于俄勒冈州区域,请单击俄勒冈州。
单击创建。当 Amazon S3 成功创建您的存储桶时,控制台会在存储桶面板中显示您的空存储桶。
创建文件夹。
第一步是将数据从 Postgres 导出到本地驱动器。为此,请在psql终端中使用COPY命令。将要复制的数据复制到 CSV 文件并将其导出到本地驱动器。
Psql 有两个不同的 COPY 命令:/copy 和 COPY。
/copy 是一个元命令,允许您复制到客户端服务器。另一方面,COPY用于复制服务器端文件。您需要使用 COPY 将 CSV 导出到本地驱动器。
该命令如下所示:
COPY public.customers TO '/home/john/customers.csv' FORMAT CSV HEADER true;
复制数据时,请确保在命令末尾指定 CSV。
以下是关于使用 COPY 将 Postgres 数据导出为 CSV 文件的简短介绍视频。
接下来,使用 *nix 类系统上的split 程序将单个 CSV 文件拆分为多个文件。此步骤用于准备要上传到 S3 的数据,然后上传到 Redshift。Amazon强烈建议将数据拆分为多个文件,以利用 AWS 的并行处理能力。确保将 CSV 文件拆分为与 Redshift 集群的切片数相同的文件数。
例如,每个 ra3.4xlarge 计算节点有 4 个切片,每个 ra3.16xlarge 计算节点有 16 个切片。如果您的集群有两个 ra3.4xlarge 计算节点,则需要将 CSV 文件拆分为八个单独的文件。
另外,确保每个文件的大小大致相同 - 压缩后 喀麦隆电话数据 在 1 MB 到 1 GB 之间。
3.上传文件到S3
接下来,将 CSV 文件加载到 S3。
以下是来自AWS的说明的副本:
在 Amazon S3 中创建一个存储桶。
登录 AWS 管理控
单击创建存储桶。
在“创建存储桶”对话框的“存储桶名称”框中,键入存储桶名称。您选择的存储桶名称在 Amazon S3 中所有现有存储桶名称中必须是唯一的。一种帮助确保唯一性的方法是在存储桶名称前加上组织名称作为前缀。存储桶名称必须符合某些规则。有关更多信息,请转到Amazon Simple Storage Service 开发人员指南中的存储桶限制和局限性。
选择区域。在与您的集群相同的区域中创建存储桶。如果您的集群位于俄勒冈州区域,请单击俄勒冈州。
单击创建。当 Amazon S3 成功创建您的存储桶时,控制台会在存储桶面板中显示您的空存储桶。
创建文件夹。