五、SparkSQL迁移到K8s的收益 1、可以将计算和存储进行解耦,即存算分离。在存储和计算耦合的架构中,由于各业务场景对存储和计算的需求不平衡,绑定两者同步进行伸缩,会出现其中一种资源浪费的情况;将计算和存储解耦后则可以根据需要分别进行弹性伸缩,系统在负载均衡调度方面可以更加灵活。 2、统一算力资源池实现统筹调度...
五、SparkSQL迁移到K8s的收益 1、可以将计算和存储进行解耦,即存算分离。在存储和计算耦合的架构中,由于各业务场景对存储和计算的需求不平衡,绑定两者同步进行伸缩,会出现其中一种资源浪费的情况;将计算和存储解耦后则可以根据需要分别进行弹性伸缩,系统在负载均衡调度方面可以更加灵活。 2、统一算力资源池实现统筹调度...
1. 继续扩大SparkSQL on K8S的规模 后续传媒将继续扩大SparkSQL on K8S的规模,统一算力资源池,扩大规模效应。当前大数据技术中心正在协助推荐业务开展迁移验证,也已经取得了不错的测试效果。2. 探索与Flink on K8S混部 当前传媒也正在落地Flink on K8S的云原生方案,并探索与SparkSQL on K8S做混部。相较于后台线...
1. 继续扩大SparkSQL on K8S的规模 后续传媒将继续扩大SparkSQL on K8S的规模,统一算力资源池,扩大规模效应。当前大数据技术中心正在协助推荐业务开展迁移验证,也已经取得了不错的测试效果。 2. 探索与Flink on K8S混部 当前传媒也正在落地Flink on K8S的云原生方案,并探索与SparkSQL on K8S做混部。相较于后台线上...
传媒SparkSQL on K8S 稳定运行一年来,随着优化方案的落地,集群的规模相较于初期已经缩容了 30+%,但基线产出仍保持了稳定,甚至有所提升。这与部门内和杭研相关团队的有力支持是分不开的,在此一并表示感谢!后续工作将围绕以下几个方面展开: 继续扩大 SparkSQL on K8s 的规模 ...
传媒当前SparkSQL on K8s使用的ESS shuffle方案依赖于计算节点上的磁盘来存储临时数据,还不算完整云原生意义上的存算分离,后续将开始调研并落地RSS相关的方案。 引用: Apache Kyuubi (Incubating)
spark on k8s 部署 k8s搭建spark 本文介绍Spark On K8s的环境准备工作,并通过一个示例来演示如何提交Spark程序到K8s运行。 一、环境准备 首先,本门课程使用的Spark版本为v3.2.3版本,Spark 3.x是当前主流在用的版本,它相比Spark 2.x增加了很多新功能新特性,性能也有大幅的提升。
根据celeborn官网,spark调用celeborn时,需要把对应的jar包放到$SPARK_HOME/jars/ 目录下。大家都知道spark on k8s 需要打spark 镜像,那如果celeborn升级了,难道要重打镜像吗? 当然这是一种办法,但是作为有追求的(爱折腾)的程序员,肯定不喜欢这种不优雅的方式。
SparkShell(sparkSql) on k8s k8s上没有搭建zepplin,有时候想使用sparkshell/sparksql查一些数据不是很方便,尤其是数据量大的时候,下面描述一下在k8s上运行一个pod,然后在pod里面运行sparkshell/sparksql这样就可以方便查询数据。 (当然,如果你本机有固定的ip或可以使用花生壳之类的服务,就可以直接使用spark-shell/sp...