首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签数据湖

#数据湖

数据湖是一个集中式存储池,可对接多种数据源,无缝对接各种计算分析和机器学习平台

GenAI技术栈架构指南—10 个工具

云云众生s

现代数据湖,有时称为数据湖仓,一半是数据湖,一半是基于开放表格式规范 (OTF) 的数据仓库。两者都建立在现代对象存储之上。

2400

软考高级架构师:通俗讲解信息系统数据库、数据仓库和数据湖

明明如月学长

想象你走进一家大型超市,看到的第一样东西就是排列整齐的货架,上面摆放着各种商品,每种商品都有固定的位置,比如牛奶放在冷藏区,饼干放在干货区。数据库就相当于这些货...

4700

软考高级:数据库、数据仓库和数据湖概念和例题

明明如月学长

数据库、数据仓库和数据湖是数据管理系统中常见的三种概念,它们在存储结构、处理数据的方式、用途等方面各有特点。以下是对这三个概念的简要讲解:

4500

腾讯云数据湖赋能AIGC多模态大模型

云存储

腾讯云 · 云存储 (已认证)

近日,腾讯云存储解决方案总监温涛受邀在2024数据基础设施技术峰会-“智算中心技术创新论坛”分享了腾讯云的数据智能生态创新之路,剖析腾讯云数据湖在赋能AIGC多...

8600

查收一份来自南极的Iceberg数据治理指南

腾讯QQ大数据

Apache Iceberg 作为面向超大型湖存储的新一代表格式,由于在元数据管理、数据时效性以及解决传统Hive在海量分区操作耗时方面具备显著优势,目前正在被...

15310

数据湖Delta Lake、Hudi 与 Iceberg介绍 | 青训营笔记

鳄鱼儿

数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。 全量数据包括原始系统所产生的原始数据拷贝以及为了各...

20410

有图有真相!深度剖析数据湖与数据仓库有什么区别

SNP数据迁移

从本质上说,数据湖就是一个信息资源库。人们常常将数据湖与数据仓库混为一谈,但两者在架构和满足的业务需求上都不一样。尤其是,随着社交媒体数据、物联网机器数据和交易...

18010

腾讯云大数据TBDS数据湖荣获IDC金融领域最佳实践案例

腾讯QQ大数据

国际权威市场研究机构IDC近日发布了《IDC PeerScape:金融领域中数据管理分析服务最佳实践案例》报告,腾讯云大数据TBDS和某股份制银行的存算分离数据...

23710

揭秘Robinhood扩展和管理PB级规模Lakehouse架构

ApacheHudi

Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,R...

11110

现代数据技术栈:反向ETL

大数据学习与分享

反向 ETL 是将数据从数据仓库或数据湖移回到操作系统、应用程序或其他数据源的过程。“反向 ETL”一词可能看起来令人困惑,因为传统的 ETL(提取、转换、加载...

9610

腾讯云存储亮相2024数据基础设施技术峰会·4.24成都站

云存储

腾讯云 · 云存储 (已认证)

温涛,腾讯云存储解决方案总监,受邀出席本次活动,将于智算中心技术创新论坛分享“数据智能生态创新之路,腾讯云数据湖赋能AIGC多模态大模型”的主题演讲,期待你的光...

11810

Apache Hudi +MinIO + HMS构建现代数据湖

ApacheHudi

Apache Hudi 已成为管理现代数据湖的领先开放表格式之一,直接在现代数据湖中提供核心仓库和数据库功能。这在很大程度上是由于 Hudi 提供了高级功能,例...

10810

什么数据集成(Data Integration):如何将业务数据集成到云平台?

SNP数据迁移

说到数据集成(Data Integration),简单地将所有数据倒入数据湖并不是解决办法。 在这篇文章中,我们将介绍如何轻松集成数据、链接不同来源的数据、将其...

25210

数据仓库与数据湖与湖仓一体:概述及比较

大数据杂货铺

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户,公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计,2017 年每天会生成...

31210

架构师的AI/ML数据湖参考架构指南

云云众生s

现代数据湖一半是数据仓库,一半是数据湖,并且对所有内容都使用对象存储。将对象存储用于数据湖非常有意义,因为对象存储适用于非结构化数据,而数据湖就是用来存储非结构...

11210

架构师指南:现代数据湖参考架构

云云众生s

旨在最大化其数据资产的企业正在采用可扩展、灵活且统一的数据存储和分析方法。这种趋势是由负责构建与不断变化的业务需求相一致的基础架构的企业架构师推动的。现代数据湖...

13310

实时数仓:实时数仓3.0的演进之路

Freedom123

传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一...

13510

数据湖管理篇之Apache Iceberg

Freedom123

在文件format(parquet/avro/orc)之上实现table语义 支持定义和变更schema 支持hidden partition 和parti...

8910

如何让数据湖仓达到数据仓库的性能

云云众生s

数据湖仓库架构的普及性持续增加,这一点毫不令人惊讶。它们无缝集成数据湖和数据仓库的优点的潜力,承诺为数据处理和分析带来变革性的体验。然而,这种方法也存在缺陷。本...

6910

Uber 基于Apache Hudi的超级数据基础设施

ApacheHudi

Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据...

12110
领券