如果是掌握hadoop的使用,java基礎好就可以,看看hadoop權威指南。
想深入學習源碼的話,就需要些網絡編程的知識了。具體步驟:1.選擇一個Hadoop的版本,然后閱讀文檔了解Hadoop:What's Hadoop, Why Hadoop exists;2.安裝Hadoop,三種方式都試下;3.在Hadoop文檔里面有Hadoop Command的資料,I.hdfs command,盡量試試這兩方面的命令;4.Hadoop Files,看看Hadoop文件的概念,關注它的分布式特點,然后看Reduce函數輸出文件;5.自己寫WordCount與Advanced WordCount;6.寫Sort程序;7.使用RandomTextWriter;8.模仿、、寫自己的;9.yahoo有一個Hadoop的教程,英文版的,里面的內容很好;10.《hadoop權威指南》當參考書,自己就可以實戰(zhàn)了。
如果是掌握hadoop的使用,java基礎好就可以,看看hadoop權威指南。
想深入學習源碼的話,就需要些網絡編程的知識了。
具體步驟:
1.選擇一個Hadoop的版本,然后閱讀文檔了解Hadoop:What's Hadoop, Why Hadoop exists;
2.安裝Hadoop,三種方式都試下;
3.在Hadoop文檔里面有Hadoop Command的資料,I.hdfs command,盡量試試這兩方面的命令;
4.Hadoop Files,看看Hadoop文件的概念,關注它的分布式特點,然后看Reduce函數輸出文件;
5.自己寫WordCount與Advanced WordCount;
6.寫Sort程序;
7.使用RandomTextWriter;
8.模仿、、寫自己的;
9.yahoo有一個Hadoop的教程,英文版的,里面的內容很好;
10.《hadoop權威指南》當參考書,自己就可以實戰(zhàn)了!
在平臺方面,hadoop環(huán)境需要搭建在linux服務器上,首先需要了解Linux的基礎知識與命令;
開發(fā)方面,hadoop首先是個提供大數據存儲的平臺,因此我們要使用其存儲功能,因此需要掌握其數據操作的api(scala api 或者 java api);其次是hadoop是大數據分析的數據源,熟悉對大數據的 分析/使用 方法(spark/map-reduce技術,都有scala 和 java兩種api)。
因此,學習hadoop必須掌握scala或者java中的一門開發(fā)語言,然后在學習hadoop數據操作命令,api,spark/map-reduce分析技術。
另外,還可以學習hbase這種基于hdfs的結構化大數據存儲技術,和flume大數據采集技術。
HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。
HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其文件存儲系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數據,HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。 [1] 上圖描述了Hadoop EcoSystem中的各層系統(tǒng),其中HBase位于結構化存儲層,Hadoop HDFS為HBase提供了高可靠性的底層存儲支持,Hadoop MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務和failover機制。
此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數據統(tǒng)計處理變的非常簡單。 Sqoop則為HBase提供了方便的RDBMS數據導入功能,使得傳統(tǒng)數據庫數據向HBase中遷移變的非常方便。
在平臺方面,hadoop環(huán)境需要搭建在linux服務器上,首先需要了解Linux的基礎知識與命令;開發(fā)方面,hadoop首先是個提供大數據存儲的平臺,因此我們要使用其存儲功能,因此需要掌握其數據操作的api(scala api 或者 java api);其次是hadoop是大數據分析的數據源,熟悉對大數據的 分析/使用 方法(spark/map-reduce技術,都有scala 和 java兩種api)。
因此,學習hadoop必須掌握scala或者java中的一門開發(fā)語言,然后在學習hadoop數據操作命令,api,spark/map-reduce分析技術。另外,還可以學習hbase這種基于hdfs的結構化大數據存儲技術,和flume大數據采集技術。
聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.888秒