迁移开源HDFS的数据到文件存储HDFS
本文档介绍如何将开源HDFS的数据平滑地迁移到文件存储HDFS。
背景信息
当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。
适用范围
- 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。
- 阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。
准备工作
非阿里云自建Hadoop集群数据迁移
非阿里云自建Hadoop集群数据迁移到文件存储HDFS包括以下两种情况。
- 非阿里云自建Hadoop集群与文件存储HDFS可以实现网络互通时, 请按照以下方法进行数据迁移。
- 使用阿里云高速通道产品建立原集群和文件存储HDFS所在VPC网络的连通,详情请参见专线上云方案介绍。
- 新旧集群实现网络互通后,执行以下命令迁移数据。
hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse
其中oldclusterip为原自建Hadoop集群namenode的IP地址或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。
说明 为减轻现有集群资源压力,建议确保新旧集群网络连通后,在新挂载文件系统的阿里云Hadoop集群上执行数据迁移命令。
- 非阿里云自建Hadoop集群与文件存储HDFS无法实现网络互通时,请按照以下方法进行数据迁移。
- 将非阿里云自建Hadoop集群数据迁移到对象存储OSS,详情请参见离线迁移教程。
- 将对象存储OSS数据迁移到文件存储HDFS,详情请参见文件存储HDFS和对象存储OSS双向数据迁移。
阿里云ECS自建Hadoop集群数据迁移
阿里云ECS自建Hadoop集群数据迁移到文件存储HDFS时,包括以下两种情况:
- 阿里云ECS自建Hadoop集群处于经典网络环境时,请按照以下方法进行数据迁移。
- 通过阿里云ECS的ClassicLink建立ClassicLink连接,详情请参见建立 ClassicLink 连接。
- 执行以下命令迁移数据。
hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse
其中oldclusterip为原自建Hadoop集群namenode的IP地址或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。
- 阿里云ECS自建Hadoop集群处于VPC网络环境时,请按照以下方法进行数据迁移。
阿里云ECS自建Hadoop集群处于VPC网络环境时,可以直接通过VPC网络迁移数据到文件存储HDFS。迁移命令如下所示:
hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse
其中oldclusterip为原自建Hadoop集群namenode的IP或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。
常见问题
- 整体迁移速度受Hadoop集群与文件存储HDFS之间的带宽、集群规模影响。同时文件越多,checksum需要的时间越长。如果迁移数据量大,建议先尝试迁移几个目录评估下整体时间。如果只能在指定时间段内迁移数据,可以将目录切为几个小目录,依次迁移。
- 一般全量数据同步时,需要一个短暂的业务停写过程,用来启用双写双算或直接将业务切换到新集群上。
- 迁移过程出现异常提示:Cannot obtain block length for LocatedBlock。
从原生的HDFS往对象存储OSS/文件存储HDFS迁移数据时,可能会遇到这个问题。遇到该问题时,请执行
hdfs fsck / –openforwrite
命令,检查当前是否有文件处于写入状态尚未关闭。如果有处于写入状态的文件时,需判断文件是否有效。- 如果文件无效,则直接删除文件。
hdfs rm <path-of-the-file>
- 如果文件有效,则不能直接删除,请考虑恢复问题文件租约。
hdfs debug recoverLease -path <path-of-the-file> -retries <retry times>
- 如果文件无效,则直接删除文件。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论