前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云DLC(数据湖计算)重磅支持Apache Hudi

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

作者头像
ApacheHudi
发布2023-02-28 11:17:40
1.2K0
发布2023-02-28 11:17:40
举报
文章被收录于专栏:ApacheHudiApacheHudi
腾讯云数据湖计算 DLC(Data Lake Compute,DLC)提供了敏捷高效的数据湖分析与计算服务。该服务采用无服务器架构(Serverless)设计,用户无需关注底层架构或维护计算资源,使用标准 SQL 即可完成对象存储服务(COS)及其他云端数据设施的联合分析计算。借助该服务,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升了企业数据敏捷度。

数据湖计算 DLC 通过类 SaaS 化的服务设计,为客户提供云原生企业级敏捷智能数据湖解决方案,具备以下特点:

  • • 依托腾讯云大数据内核技术增强能力,为企业提供稳定、安全、高性能的计算资源。
  • • 使用标准 SQL 语法即可完成数据处理、多源数据联合计算等数据工作,有效降低用户数据分析服务搭建成本及使用成本,提高企业数据敏捷度。
  • • 基于存算分离和分钟级弹性伸缩能力,为企业提供更低的成本模型及精确的成本能力。
  • • 供 SaaS 化开箱即用的使用体验,无需关注底层架构或维护计算资源,企业培训、使用门槛更低。

Apache Hudi 是新一代流式数据湖平台,其最主要的特点是支持记录(Record)级别的插入更新(Upsert)和删除,同时还支持增量查询。

DLC支持通过SparkSQL创建表、写入表和查询表中使用 Hudi 表格式。

应用场景

近实时数据入湖

Apache Hudi 支持插入、更新和删除数据的能力。相比其他传统的文件格式,Hudi 优化了数据写入过程中产生的小文件问题。您可以基于 DLC Spark 或 Flink 实时摄取消息队列(Kafka 等)的日志数据至 Hudi 中,同时也支持实时同步数据库 Binlog 产生的变更数据。

增量数据处理

过去的增量处理往往将数据划分成小时粒度的分区,当属于此分区内的数据写入完成时,该分区就能对外提供相应的查询,这使数据的“新鲜程度”可以达到小时级别。但如果发生数据迟到的现象,唯一的补救措施是通过对整个分区的重新计算来保证正确性,这增加了整个系统的在计算和存储方面的性能开销。Hudi 支持 Incremental Query 查询类型,您可以通过 DLC Spark Streaming 查询给定 COMMIT 后发生变更的数据,这降低了在计算资源方面的消耗,同时可以将数据的新鲜程度从小时级别提升到分钟级别,让数据在湖内不同层之间快速流转。

近实时数据分析

Hudi 通过将数据的更新时间缩短至几分钟,提供了一种面向实时分析更有效的方案。此外,借助于 DLC Presto和 SparkSQL 与 Hudi 的无缝集成和出色性能,您可以在无需任何额外配置的情况下,对更实时的数据进行更快的分析。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ApacheHudi 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应用场景
    • 近实时数据入湖
      • 增量数据处理
        • 近实时数据分析
        相关产品与服务
        数据湖计算 DLC
        数据湖计算DLC(Data Lake Compute,DLC)提供了敏捷高效的数据湖分析与计算服务。服务采用无服务器架构(Serverless),开箱即用。使用标准SQL语法即可完成数据处理、多源数据联合计算等数据工作,有效降低用户数据分析服务搭建成本及使用成本,提高企业数据敏捷度。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档