接下来,我们将通过Maven增加Spark与Kafka的依赖。 <dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql-kafka-0-10_2.12</artifactId><version>3.2.0</version></dependency> 1. 2. 3. 4. 5. 四、代码示例 1. 创建Kafka生产者 首先,我们需要一个Kafka生产者,将数据发送到Kafka主题中。
1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL。 前提条件 安装 1)spark:我使用的yarn-client模式下的spark,环境中集群客户端已经搞定 2)zookeep...
版本号: maven3.5.0 scala IDE for Eclipse:版本(4.6.1) spark-2.1.1-bin-hadoop2.7 kafka_2.11-0.8.2.1 JDK1.8 基础环境: Maven3.5.0安装与配置+Eclipse应用 Maven下载项目依赖jar包和使用
Exception in thread "main" org.apache.kafka.common.config.ConfigException: Missing required configuration "bootstrap.servers" which has no default value. 由错误可见,是因为没有设置kafka相关参数。 把官网代码修改如下: packagecn.xdf.userprofile.stream importorg.apache.spark.SparkConf importorg.apache.spa...
在利用Spark和Kafka处理数据时,有时会同时在maven pom中引入Spark和Kafka的相关依赖。但是当利用Spark SQL处理数据生成的DataSet/DataFrame进行collect或者show等操作时,抛出以下异常信息: 代码语言:javascript 复制 instage3.0(TID403,localhost,executor driver):java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStr...
<artifactId>spark-sql-kafka-0-10_2.12</artifactId> <version>${spark.version}</version> </dependency> <!-- SparkMlLib机器学习模块,里面有ALS推荐算法--> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.12</artifactId> ...
<artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.1.2</version> </dependency> <!--<!– 向kafka 生产数据需要包 –>--> <!--<dependency>--> <!--<groupId>org.apache.kafka</groupId>-->
2.添加maven依赖 <dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2.1.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.11</artifactId><version>2.1.1</version></depe...
5.本地开发完成后,maven打包成jar包,上传到远端服务器,运行命令: spark-submit--master yarn --classsparkKafka.App/home/hadoop/sparkKafka01-1.0.jar 最后附上笔者最后的调试结果,执行sparksql从hive数据仓中捞出日志数据,如图(图-6.1),看到你,整个世界瞬间变美好了,哈哈哈 ...
对于Kafka数据源我们需要在Maven/SBT项目中引入: 代码语言:javascript 复制 groupId=org.apache.spark artifactId=spark-sql-kafka-0-10_2.11version=2.3.2 首先我们需要创建SparkSession及开始接收数据,这里以Kafka数据为例 代码语言:javascript 复制 SparkSession spark=SparkSession.builder().appName("appName").get...