Apache Spark 作为如今大数据离线计算领域事实标准,被广泛应用于网易内部以及数据中台等商业化产品中。目前,Spark on YARN 是业界最主流、也是最成熟的使用方式,但随着以 Kubernetes 为代表的云原生技术的流行,Spark on K8s 正在受到越来越多用户的青睐。网易自 2018 年起,就有对 Spark on K8s 技术开始探索。相比...
Spark on YARN 提供了很多辅助功能,比如 YARN 天然有 Application 的概念、提供日志聚合服务、支持 Spark Live UI 代理等,这些在 Spark on K8s 中并不是开箱即用的。 在部署方案上,Spark on YARN 提供标准化的方案;但 Spark on K8s 却有各种各样的玩儿法,如前文提及的 shuffle 方案,又比如以任务提交为例,...
Spark开源REST服务——Apache Livy(Spark 客户端)【云原生】Apache Livy on k8s 讲解与实战操作 二、Spark Kyuubi 架构 Kyuubi 系统的基本技术架构如下图所示:图的中间部分是 Kyuubi 服务端的主要部分,它处理来自图像左边所示的客户端的连接和执行请求。在 Kyuubi 中,这些连接请求被维护为 Kyuubi Session,执行请...
Spark on YARN 提供了很多辅助功能,比如 YARN 天然有 Application 的概念、提供日志聚合服务、支持 Spark Live UI 代理等,这些在 Spark on K8s 中并不是开箱即用的。 在部署方案上,Spark on YARN 提供标准化的方案;但 Spark on K8s 却有各种各样的玩儿法,如前文提及的 shuffle 方案,又比如以任务提交为例,...
Spark 任务覆盖量从 0 到 1.5W,占例行任务约 80%,资源节省约 54%(同逻辑、同数据),收益超预期。同时未来 Spark on K8S 弹在线资源、基于 Kyuubi 做计算网关收口等技术演进提供了基础。
本文聚焦于Apache Kyuubi与Celeborn (Incubating)在加速Spark拥抱云原生方面的作用。主要讨论点包括云原生环境中的收益与挑战、构建统一Spark任务网关的策略以及如何基于Apache Celeborn (Incubating)构建Shuffle Service。在探讨云原生Spark的优势与挑战时,我们对比了Spark on YARN与Spark on K8s之间的区别。K8s环境...
【云原生】Apache Livy on k8s 讲解与实战操作 二、Spark Kyuubi 架构 Kyuubi 系统的基本技术架构如下图所示: 图的中间部分是Kyuubi服务端的主要部分,它处理来自图像左边所示的客户端的连接和执行请求。在Kyuubi中,这些连接请求被维护为Kyuubi Session,执行请求被维护为Kyuubi Operation,并与相应的session进行绑定。
目前在Adhoc查询场景下,SparkSQL占比接近一半,依赖Kyuubi对于Scala语法的支持,目前已经有部分高级用户使用scala语法提交语句执行,并且可以在SQL和Scala模式做自由切换,这大大丰富了adhoc的使用场景。 02 Kyuubi应用 Kyuubi 是网易数帆大数据团队贡献给 Apache 社区的开源项目。Kyuubi 主要应用在大数据领域场景,包括大数据离线...
目前在Adhoc查询场景下,SparkSQL占比接近一半,依赖Kyuubi对于Scala语法的支持,目前已经有部分高级用户使用scala语法提交语句执行,并且可以在SQL和Scala模式做自由切换,这大大丰富了adhoc的使用场景。 02 Kyuubi应用 Kyuubi 是网易数帆大数据团队贡献给 Apache 社区的开源项目。Kyuubi 主要应用在大数据领域场景,包括大数据离线...
来自网易以及 Kyuubi 社区的开发者还对 Spark on K8s 做出了很多重要的改进,限于时间和篇幅无法一一详述,各位可以根据 JIRA 工单到社区中搜索相应的 Pull Request。在此我们也非常感谢 Spark 社区的开发者在代码审查等方面所提供的帮助! 现场问答 Q:我们已经在 K8s 上部署了 Kyuubi 用于往 K8s 上提交 Spark 任务...