hiveContext.sql("USE spark"); hiveContext.sql("DROP TABLE IF EXISTS student_infos"); //在hive中创建student_infos表 hiveContext.sql("CREATE TABLE IF NOT EXISTS student_infos (name STRING,age INT) row format delimited fields terminated by '\t' "); hiveContext.sql("load data local inpath ...
使用spark-sql操作hive数据仓库的前提是需要把hive 配置文件hive-site.xml复制到spark conf目录下 进入到spark bin目录下使用命令开启一个spark-sql: ./spark-sql --masterlocal[*] --jars /usr/hdp/current/hive-server2/lib/mysql-connector-java.jar 因为我们要操作hive,因此需要添加mysql的driver类。 查看库 ...
JavaSparkContext sc=newJavaSparkContext(conf);//HiveContext是SQLContext的子类。HiveContext hiveContext =newHiveContext(sc); hiveContext.sql("USE spark"); hiveContext.sql("DROP TABLE IF EXISTS student_infos");//在hive中创建student_infos表hiveContext.sql("CREATE TABLE IF NOT EXISTS student_infos...
spark.sql("DROP TABLE IF EXISTS " + tableName) dataDF.write.saveAsTable(tableName) } def main(args: Array[String]): Unit = { // 创建Spark配置 val sparkConf = new SparkConf().setAppName("HiveSupport").setMaster("local[*]") // 创建Spark SQL 客户端 val spark: SparkSession = Spar...
将hive/conf/hive-site.xml 拷贝到spark的conf目录下. 将Hive元数据库MySQL的驱动jar包拷贝到spark的jars目录下,如果是Derby不需要拷贝. 如果访问不到HDFS,将hdfs-site.xml,以及core-site.xml拷贝到spark的conf目录下. 启动spark-sql,然后执行spark.sql("show tables").show,你就会发现现在访问的是外部hive的数据...
hiveContext.table("emp").show //3)关闭资源 sc.stop() } } 同样的和sqlcontext一样,建.sh文件,赋权限,执行。 首先是执行命令: spark-submit \ --class com.data.spark.HiveContext \ --master local[2] \ --jars /Users/yinchuchu/Downloads/software/hadoop/hive-1.1.0-cdh5.7.0/lib/mysql-conne...
将hive安装目录下的hive-site.xml文件复制到spark的conf目录下 6、进入SPARK_HOME/bin/ 运行 ./spark-sql --master spark://masterIp:7077 7、查询hive表数据 > select * from test2; 15/07/16 14:07:13 INFO ParseDriver: Parsing command: select * from test2 ...
val sqlContext = new SQLContext(sc) val hiveContext = new HiveContext(sc) 程序入口:Spark2.x val spark = SparkSession SparkSession是Spark-2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户 学习Spark的各项功能。在Spark的早期版本中,SparkContext是Spark的主要切入点,由于RDD是 主要的AP...
SparkSession是Dataset与DataFrame API的编程入口,从Spark2.0开始支持。用于统一原来的HiveContext和SQLContext,为了兼容两者,仍然保留这两个入口。通过一个SparkSession入口,提高了Spark的易用性。创建DataFrame 创建完SparkSession之后,可以使用SparkSession从已经存在的RDD、Hive表或者其他数据源中创建DataFrame。DataFrame...
一、安装概述 计划使用sparksql组件从hive中读取数据,基于前三篇文章,我已经安装好了hadoop、spark和mysql,对于我想通过sparksql来读取hdfs...