【技術(shù)干貨】Hive實踐分享之存儲和壓縮的坑
在學(xué)習(xí)大數(shù)據(jù)技術(shù)的過程中,HIVE是非常重要的技術(shù)之一,但我們在項目上經(jīng)常會遇到一些存儲和壓縮的坑,本文通過科多大數(shù)據(jù)的武老師整理,分享給大家。
大家都知道,由于集群資源有限,我們一般都會針對數(shù)據(jù)文件的「存儲結(jié)構(gòu)」和「壓縮形式」進(jìn)行配置優(yōu)化。在我實際查看以后,發(fā)現(xiàn)集群的文件存儲格式為Parquet,一種列式存儲引擎,類似的還有ORC。而文件的壓縮形式為Snappy。具體的操作形式如下:
① 創(chuàng)建Parquet結(jié)構(gòu)的表(Hive 0.13 and later):
CREATE TABLE CRM.DEMO(A INT) STORED AS PARQUET ;
② 確認(rèn)表的文件存儲格式:
desc formatted crm.demo;
結(jié)果輸出如下
# Storage Information
SerDe Library: org.a(chǎn)pache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat: org.a(chǎn)pache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat: org.a(chǎn)pache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
③ 創(chuàng)建Snappy壓縮格式的Parquet結(jié)構(gòu)的表(待考察):
ALTER TABLE crm.demo SET TBLPROPERTIES ('parquet.compression'='SNAPPY') ;
或,寫入時
SET parquet.compression=SNAPPY ;
回到最初的問題,如果是按Snappy壓縮的格式,這份用戶行為數(shù)據(jù)沒辦法分析了,因此有兩種辦法去解決:
① 安裝Snappy的解壓工具
可自行百度,由于沒有權(quán)限,所以這條路行不通;
② 更改數(shù)據(jù)的壓縮格式可以
最初我試了一下更改Parquet格式表的壓縮格式,但是沒有用!因為我最后是需要將查詢數(shù)據(jù)導(dǎo)出到本地文件系統(tǒng),如下語句所示:
insert overwrite local directory '/home/etl/tmp/data'
select *
from crm.demo
所以,通過這樣的形式得到的數(shù)據(jù),壓縮格式依然是. Snappy。因此,這里就需要配置Hive執(zhí)行過程中的中間數(shù)據(jù)和最終數(shù)據(jù)的壓縮格式。
如MapReduce的shuffle階段對mapper產(chǎn)生的中間結(jié)果數(shù)據(jù)壓縮:
hive> set mapred.map.output.compression.codec;
mapred.map.output.compression.codec=org.a(chǎn)pache.hadoop.io.compress.SnappyCodec
如對最終生成的Hive表的數(shù)據(jù)壓縮:
hive> set mapred.output.compression.codec;
mapred.output.compression.codec=org.a(chǎn)pache.hadoop.io.compress.SnappyCodec
這里,我們要設(shè)置結(jié)果表數(shù)據(jù)的壓縮格式,語句如下:
set mapred.output.compression.codec=org.a(chǎn)pache.hadoop.io.compress.GzipCodec;
最終的結(jié)果就是 .gz 的壓縮格式
-rw-r--r-- 1 etl etl 342094 May 10 11:13 000000_0.gz
最后,我們直接下載到電腦本地,直接解壓就可以通過Excel分析用戶行為路徑數(shù)據(jù)了。
總結(jié):從Hive應(yīng)用層的角度來說,關(guān)于數(shù)據(jù)文件的「存儲結(jié)構(gòu)」和「壓縮形式」,這兩個點(diǎn)我們不需要關(guān)心,只是在導(dǎo)出數(shù)據(jù)的時候需要結(jié)合文件大小,以及數(shù)據(jù)類型去設(shè)置合適的壓縮格式。不過從Hive底層維護(hù)的角度來說,涉及到各種各樣的「存儲結(jié)構(gòu)」和「壓縮形式」,都需要開發(fā)者去研究和調(diào)整,這樣才能保證集群上的文件在「時間」和「空間」上相對平衡。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應(yīng)用