Impala是什么

Impala直接對(duì)存儲(chǔ)在HDFS,HBase或 對(duì)象存儲(chǔ)服務(wù) (OBS)中的Hadoop數(shù)據(jù)提供快速,交互式SQL查詢。除了使用相同的統(tǒng)一存儲(chǔ)平臺(tái)之外,Impala還使用與Apache Hive相同的元數(shù)據(jù),SQL語法(Hive SQL),ODBC驅(qū)動(dòng)程序和用戶界面(Hue中的Impala查詢UI)。這為實(shí)時(shí)或面向批處理的查詢提供了一個(gè)熟悉且統(tǒng)一的平臺(tái)。作為查詢 大數(shù)據(jù) 的工具的補(bǔ)充,Impala不會(huì)替代基于MapReduce構(gòu)建的批處理框架,例如Hive?;贛apReduce構(gòu)建的Hive和其他框架最適合長(zhǎng)時(shí)間運(yùn)行的批處理作業(yè)。

Impala主要特點(diǎn)如下:

支持Hive查詢語言(HiveQL)中大多數(shù)的SQL-92功能,包括SELECT,JOIN和聚合函數(shù)。

HDFS,HBase和 對(duì)象存儲(chǔ) 服務(wù)(OBS)存儲(chǔ),包括:

HDFS文件格式:基于分隔符的text file,Parquet,Avro,SequenceFile和RCFile。

壓縮編解碼器:Snappy,GZIP,Deflate,BZIP。

常見的數(shù)據(jù)訪問接口包括:

JDBC驅(qū)動(dòng)程序。

ODBC驅(qū)動(dòng)程序。

HUE beeswax和Impala查詢UI。

impala-shell命令行接口。

支持Kerberos身份認(rèn)證。

Impala主要應(yīng)用于實(shí)時(shí)查詢數(shù)據(jù)的離線分析(如 日志分析 ,集群狀態(tài)分析)、大規(guī)模的數(shù)據(jù)挖掘(用戶行為分析,興趣分區(qū),區(qū)域展示)等場(chǎng)景下。