首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签数据开发治理平台 WeData

#数据开发治理平台 WeData

云端的一站式数据协作开发平台

统一元数据:元模型定义、元数据采集

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

元数据管理可分为如下5个流程步骤:元模型定义、元数据采集、元数据加工、元数据存储、元数据应用。其中,元模型定义是整个元数据管理的前提和规范,用于定义可管理的元数...

15640

业界元数据管理:方案设计概览

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

针对元数据管理系统,各类开源方案在业界层出不穷,本文将列举和对比几个业内比较流行的元数据管理组件:

19430

大数据平台:统一元数据管理

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

元数据管理包括元数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但元数据管理实践过程中通常会面临元数据来源众多且分散在不同系统中、元数据类型多样以...

33091

数据资产管理体系与标准

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

数据资产管理(DAM,Data Asset Management)是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方...

290100

Presto CBO统计元数据

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Presto:2012年秋季Facebook内部开始研发,2013年正式对外开源。Presto是Facebook用于补充和替代Hive的产品,主要用于实时场景的...

19040

Spark CBO统计元数据

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Statistics 统计信息,参考:org.apache.spark.sql.catalyst.plans.logical.Statistics

19291

Hive CBO优化剖析

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Hive是较早的SQL on Hadoop系统,对大数据SQL执行有广泛和深远的影响。它最初由Facebook开发,后来成为Apache软件基金会的一个开源项目...

25060

Calcite系列(十二):可插拔性&JDBC驱动

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

为了实现动态数据源管理框架的目标,Calcite提供了丰富的可插拔能力和扩展性。用户可以根据使用场景进行自定义扩展。相关可插拔扩展的组件包括:

13330

Calcite系列(十一):物化视图

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

物化视图(Materialized View):是一种特殊的物理表,本质是预计算,是多个计算过程之间的联系建立。从数据组织层面优化数据访问效率,即把某些耗时的操...

29490

Calcite系列(十):执行流程-计划树执行

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

计划树执行是SQL处理的第五步,也称为Implementor执行实现。Calcite主要提供两种Implementor实现方式:RelImplementor 和...

16670

Calcite系列(九):执行流程-优化器优化

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

优化器优化是SQL处理的第四步,也是最核心的一步,优化器优化本质是基于优化规则实现关系代数等价转换。

27960

Calcite系列(八):执行流程-计划树构建

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

计划树构建是SQL处理的第三步,构建出可关系代数优化的逻辑计划树RelNode,是优化器执行优化的前提。

20160

Calcite系列(七):执行流程-合法性校验

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

合法性校验是SQL处理的第二步,在计算执行前,提前验证SQL正确性。该验证操作是非线性的,需要基于语法树处理各种嵌套的复杂情况。Calcite合法性校验基于Sq...

14330

Calcite系列(六):执行流程-语法解析

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

目前广泛使用的语法解析框架主要包括ANTLR、JavaCC和Yacc等。在大数据领域中,很多计算引擎都是基于ANTLR进行语法解析,例如 Hive、Spark和...

30770

Calcite系列(五):执行流程-概览

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

SQL执行流程有一套通用的步骤,尽管具体的实现可能会因数据库系统的不同而有所差异,但流程相对固定。以下是通用的SQL处理流程:

20860

Calcite系列(四):核心概念-Adapter

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Calcite作为SQL中间件,为提供扩展性并适配不同数据源,设计了Adapter适配器方式对接异构数据源,允许Calcite连接到不同类型的数据源。Adapt...

22450

Calcite系列(三):核心概念-Convention

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Convention:Calcite设计的核心概念,代表一类特定的数据源或执行引擎,基于Convention可生成与具体数据源或者引擎相关的执行计划。Calci...

19740

Calcite系列(二):核心概念-关系代数

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

关系模型是一种用于数据库管理的理论框架,其基础建立在数学的集合论之上。该模型由Edgar F. Codd 于1970年提出,旨在以一种严格且理论化的方式来描述数...

26170

Calcite系列(一):背景介绍

Yiwenwu

腾讯 · 后台开发工程师 (已认证)

Apache Calcite是一款开源的动态数据管理框架,提供了标准的 SQL 语言、查询优化和连接各种数据源的能力,但不包括数据存储、处理数据的算法和存储元数...

31191

Wedata数据治理产品应用

研究僧

腾讯科技深圳有限公司 · 高级工程师 (已认证)

数据开发治理平台 WeData(以下简称 WeData)是位于云端的一站式数据开发治理平台,融合了包含数据集成、数据开发、任务运维的全链路 DataOps 数据...

34740
领券