首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Apache Spark 核心原理、应用场景及整合到Spring Boot

用户7353950

Apache Spark 是一种开源的大数据处理框架,它在2009年由加州大学伯克利分校的AMPLab开发,并在2010年贡献给了Apache软件基金会。Sp...

500

0922-7.1.9-使用Spark和Hive访问Ozone

Fayson

3410

Spark Core 整体介绍

Freedom123

DiskStore磁盘存储:spark会在磁盘上创建spark文件夹,命名为(spark-local-x年x月x日时分秒-随机数),block块都会存在这里,然...

8610

Spark SQL 整体介绍

Freedom123

spark-shell、spark-sql 都是是一个独立的 spark application,启动几个就要几个application,非常耗资源

5510

Spark 单机部署

Freedom123

1. scala配置 https://www.scala-lang.org/download/2.11.8.html

7910

spark 集群搭建

Freedom123

一. 集群规划 node01为master节点,node02,node03为worker节点

7510

Spark Streaming 整体介绍

Freedom123

1. 概要     Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等...

6710

Spark Sql 详细介绍

Freedom123

    当使用Hive时,必须初始化一个支持Hive的SparkSession,用户即使没有部署一个Hive的环境仍然可以使用Hive。当没有配置hive-si...

11610

Spark RDD 整体介绍

Freedom123

    spark-shell : Spark 的交互式客户端,启动那一刻就开始执行任务,一般不用这种执行方式。

8410

Spark 整体介绍

Freedom123

    Spark 是一个大数据运算框架,使用了DAG调度程序,比基于Hadoop MapReduce 运行速度提高了100倍以上     Spark 是一个...

8510

Spark:大数据处理的下一代引擎

为了伟大的房产事业

随着大数据的快速增长,处理和分析大数据变得愈发重要。在这一背景下,Apache Spark作为大数据处理的下一代引擎崭露头角。它是一个开源的、快速的、通用的...

6310

Hadoop 和大数据的关系是什么?和 Spark的关系是什么?

LakeShen

最近在知乎上面看到这样一个问题:Hadoop 和大数据的关系?和 Spark 的关系?

7810

苹果开源一个可提升 Apache Spark 向量处理速度的插件

深度学习与Python

消费电子巨头苹果公司发布了一个开源插件,可以帮助 Apache Spark 更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

9510

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12710

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12710

Spark+Celeborn:更快,更稳,更弹性

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的...

26010

我攻克的技术难题 - Spark01:初见Spark,又是Hello World?

叫我阿柒啊

在18年初刚开始接触学习spark的时候,买了一本《Spark大数据处理技术》的书,虽然后来一些Spark开发的知识都是从官网和实践中得来的,但是这本书对我来说...

18110

Spark框架深度理解一:开发缘由及优缺点

fanstuck

由于Spark框架大多都搭建在Hadoop系统之上,要明白Spark核心运行原理还是得对Hadoop体系有个熟悉的认知。之前有写过从Hadoop1.0到Hado...

29220

spark的机器学习库mllib

mariolu

vivo · 后台开发工程师 (已认证)

Apache Spark是大数据流行的开源平台。MMLib是Spark的开源学习库。MMLib提供了机器学习配置,统计,优化和线性代数等原语。在生态兼容性支持S...

14810
领券