Impala是由一组组件组成的,可以安装在整个集群的多个节点上。为了保证性能,关键的安装步骤是在集群中的所有DataNodes上安装impalad daemon(它完成大部分的查询处理工作)。 Impala主要由这些可执行文件组成,在你从源码构建之后,这些可执行文件应该是可用的。 impalad - Impala守护进程。计划并执行针对HDFS、HBase和Amazon...
Impala 2.0和2.1版本对SSE4.1指令集有更严格的要求,现在已经放宽。 内存 建议128GB以上,最好是256GB以上。如果在某个节点上查询处理过程中的中间结果超过了Impala在该节点上的可用内存量,查询就会将临时工作数据写入磁盘,这会导致查询时间过长。需要注意的是,由于工作是并行化的,聚合查询的中间结果通常小于原始数据,...
如果服务没有成功启动(即使sudo service命令可能显示[OK]),检查Impala日志文件中的错误,通常在/var/log/impala中。 Impala升级注意事项 升级到Impala 3.0时,向具有SELECT或INSERT权限的Impala角色授予REFRESH权限。 要使用Impala 3.0中的细粒度权限功能,如果某个角色在升级到Impala 3.0之前对Impala中的某个对象拥有SELECT...
当您通过Impala SQL语句创建、删除和更改模式对象、将数据加载到表中等时,相关的元数据更改会由Impala 1.2中引入的专用目录服务自动广播到所有Impala节点。 Impala--这个运行在DataNodes上的进程,负责协调和执行查询。每个Impala实例都可以接收、规划和协调来自Impala客户端的查询。查询分布在Impala节点之间,然后这些节点作为...
启动主要的Impala守护进程服务。 一旦Impala运行,你可以使用Impala教程中的说明进行交互式实验,并尝试使用Impala Shell(impala-shell命令)。 从命令行启动 Impala 要从命令行或脚本启动Impala状态存储和Impala,可以使用service命令,也可以直接通过impalad、stattored和catalogd可执行文件启动守护进程。
一个完全空的Impala实例不包含任何表,但仍然有两个数据库。 default,当你不指定任何其他数据库时,就会创建新表。 _impala_builtins,一个系统数据库,用来存放所有内置函数。 下面的例子显示了如何查看可用的数据库,以及每个数据库中的表。如果数据库或表的列表很长,可以使用通配符符号根据它们的名称来定位特定的数据...
修改Impala的启动选项 通过Impala守护进程的配置选项,您可以选择在单一主机上运行的服务使用哪些主机和端口,指定日志记录的目录,控制资源使用和安全性,并指定Impala软件的其他方面。 通过命令行配置 Impala 启动选项 Impala 服务器、stattore 和目录服务使用默认文件 /etc/default/impala 中提供的值启动。
开发Impala应用程序 Impala的核心开发语言是SQL。您也可以使用 Java 或其他语言通过许多商业智能工具使用的标准 JDBC 和 ODBC 接口与 Impala 进行交互。对于特殊类型的分析,您可以通过用C++或Java编写用户定义函数(UDF)来补充SQL内置函数。 Impala SQ
无论Impala是否安装了群集管理软件,您都必须启用短路读取。此设置在 Impala 配置设置中,而不是 Hadoop 范围的设置中。 您必须启用块位置跟踪,您可以选择启用本地校验和以获得最佳性能。 强制性:短路读数 启用短路读取可以让Impala直接从文件系统读取本地数据。这消除了通过DataNodes进行通信的需要,提高了性能。该设置还...
Impala的核心组件是Impala守护进程,物理上由impalad进程表示。Impala 守护进程执行的几个主要功能是。 读取和写入数据文件 接受来自impala-shell命令、Hue、JDBC或ODBC的查询。 并行化查询并在集群中分配工作。 将中间查询结果传回中央协调器。 Impala 守护进程可以通过以下方式之一进行部署。