文件格式对比_文件格式转换_OSS_阿里云服务与DLA集成_Data Lake Analytics-

文件格式对比_文件格式转换_OSS_阿里云服务与DLA集成_Data Lake Analytics

阿里云服务器优惠

文件格式对比

概述

同一份数据以不同的格式保存,数据所占用的存储空间不同,使用DLA扫描数据时所花费的时间和费用也不同。通常情况下,同一份数据以ORC格式和PARQUET格式存储时,其数据扫描性能要优于普通文本CSV格式。您可以将文本类型的数据转换为ORC格式或者PARQUET格式存储,再通过DLA扫描转换格式后的数据,在提高数据扫描性能的同时也帮助您节省一定的DLA数据扫描费用。

大部分用户都是以CSV格式将数据存储在OSS上,如需提高数据扫描性能,需要借助第三方工具对文件进行格式转换,然后将转换后的数据文件上传至OSS,最后再使用DLA进行数据扫描,整个过程比较繁琐。为减轻您的工作量,您可以直接使用DLA来转换文件格式。

文件格存储占比

文件格式对比

假设将1.2GB的数据以CSV、TSV或者LOG等格式存储在OSS中,通过DLA将CSV、TSV或者LOG格式转换为其他格式后,数据在OSS中所占用的存储空间如下表所示。

存储格式 数据来源及特点 数据量增大或减少 详细数据量
JSON 大量应用产生JSON类型的数据,冗余数据量大。 增大151.7% 3.02GB
AVRO Hadoop生态格式的数据,数据由大部分遗留系统产生。 增大8.3% 1.3GB
RCFile Hadoop生态格式的数据,数据由大部分遗留系统产生。 减少2.5% 1.17GB
Parquet Hadoop生态格式的数据。

  • 数据采用高性能的列存储格式,提升数据查询性能。
  • 支持嵌套的数据模型。
  • 自带性能友好的统计元信息。
减少53.3% 560MB
ORC Hadoop生态格式的数据。

  • 自带性能友好的统计元信息。
  • 高压缩比
减少80.4% 235MB
赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • potplayer
  • directx