大數據是一系列技術(shù)的統稱(chēng),經(jīng)過(guò)多年的發(fā)展,大數據已經(jīng)形成了從數據采集、整理、傳輸、存儲、安全、分析、呈現和應用等一系列環(huán)節。
零基礎學(xué)習大數據。如果你想學(xué)習這個(gè)最后找工作,我希望你慎重考慮。
一,如果你是計算機專(zhuān)業(yè)的,不管畢業(yè)與否,自學(xué)這個(gè),比較好入門(mén),并且以后找工作也算是專(zhuān)業(yè)對口。
二,如果你不是計算機專(zhuān)業(yè),并且已經(jīng)大學(xué)畢業(yè)了,自學(xué)就很費勁了,也更費時(shí)間,你沒(méi)有一個(gè)詳細的學(xué)習規劃簡(jiǎn)直太浪費時(shí)間精力,最好是能報個(gè)班,有個(gè)系統的學(xué)習規劃要比一個(gè)人在家里啃書(shū)自學(xué)強的多。
大數據前景很好,目前國內大數據人才缺乏,大數據的應用十分廣泛,大數據不僅包括企業(yè)內部應用系統的數據分析,還包括與行業(yè)、產(chǎn)業(yè)的深度融合。
每個(gè)城市所存在的機構都不一樣。最好選擇覆蓋地區廣的,比較權威的培訓機構。大數據的專(zhuān)業(yè)要求很高。目前敢培訓大數據的學(xué)校都是具備一定專(zhuān)業(yè)性的,主要看看是否能提供真實(shí)的案例來(lái)供學(xué)生們分析來(lái)進(jìn)行專(zhuān)業(yè)性的判斷。多看看網(wǎng)絡(luò )上的口碑。現在的培訓費用都很高,基本在1-2W之間,大數據會(huì )更貴一點(diǎn),1.5W-2.5W。培訓行業(yè)普遍都這個(gè)價(jià),包括孩子的家教費用也無(wú)敵,你懂得。
如果自學(xué)的話(huà),就要選好學(xué)習資料,最好身邊有一個(gè)懂一些技術(shù)的可以幫助指導。有毅力堅持下去。以下給你一些方向。
需要掌握的專(zhuān)業(yè)技術(shù):
堅實(shí)的Java技術(shù)作為基礎支持,之后學(xué)習:Hadoop,大數據存儲,大數據架構設計,大數據實(shí)時(shí)計算,大數據數據采集,大數據商業(yè)實(shí)戰等。
技術(shù)人員就業(yè)方向:大數據系統研發(fā)人才,大數據應用開(kāi)發(fā)人才和大數據分析人才。
第一個(gè)問(wèn)題:大數據好不好學(xué)?
總結了一下幾種情況,供參考。
1.對于有開(kāi)發(fā)經(jīng)驗的同學(xué)來(lái)說(shuō),學(xué)大數據還是比較容易的,比如你現在是做JAVA開(kāi)發(fā)的,那么你轉行大數據做JAVA大數據開(kāi)發(fā),只需要把大數據框以及相關(guān)大數據技術(shù)學(xué)到,再輔以一定的項目練習,基本就可以干活了;如果你現在是做的Python開(kāi)發(fā),同樣你也只需要學(xué)好大數據框架以及相關(guān)技術(shù),再輔以相關(guān)項目就可以從事Python大數據開(kāi)發(fā)了。
2.如果你是零基礎,學(xué)習能力一般,在理解概念會(huì )稍微慢一點(diǎn),比如學(xué)到JAVA面向對象的時(shí)候,這部分同學(xué)就比較懵了,但是只要肯付出,愿意多問(wèn),愿意去琢磨,也能得到理想的結果。
3.零基礎學(xué)習能力很強,比如畢業(yè)于211、985高校,相對來(lái)說(shuō),學(xué)起來(lái)就比較輕松。在我們的大數據培訓班,50%以上都是這樣的學(xué)生,不得不說(shuō),學(xué)習能力強,學(xué)啥都快,不光是編程。
第一種有開(kāi)發(fā)經(jīng)驗,他們會(huì )去主動(dòng)學(xué)習;第三種學(xué)習能力強,他們相信自己能學(xué)會(huì )。但第二種他們缺乏自信,也是比較猶豫的一部分人。
三種人中,也以第二種學(xué)生居多。如果想轉行,三點(diǎn)建議,可供參考。
1.不要猶豫,先學(xué)。先找學(xué)習資料,從零開(kāi)始學(xué),只有你真的開(kāi)始去學(xué)了,才能知道好不好學(xué)。
2.統招本科學(xué)歷,學(xué)大數據,找大數據開(kāi)發(fā)工作。目前一線(xiàn)城市的企業(yè),對大數據開(kāi)發(fā)工程師的學(xué)歷要求都是本科。
3.大專(zhuān)學(xué)歷,學(xué)JAVA,找JAVA開(kāi)發(fā)工作。學(xué)歷不夠,先把JAVA學(xué)好,找一份JAVA開(kāi)發(fā)工作,如果對大數據感興趣,可做2年JAVA開(kāi)發(fā)后,再轉大數據,用開(kāi)發(fā)經(jīng)驗來(lái)彌補學(xué)歷的短板。
希望對你有幫助~
大數據聽(tīng)起來(lái)高大上,真正了解大數據的2113人都清楚大數據行業(yè)是非常辛苦的。大數據的內容涉及到較多的基礎內容,只有把基礎內容融會(huì )貫通以后,才會(huì )往更高一層的數據分析師前進(jìn)。
首先,想零基礎學(xué)習大數據分析工5261作,一般最好有個(gè)本科的學(xué)歷,大專(zhuān)也行。只是專(zhuān)科學(xué)歷即4102使掌握了一定的大數據分析技術(shù),在就業(yè)市場(chǎng)上的核心競爭力比較低,現在用人單位對于數據分析1653的職位的最低要求是本科及以上學(xué)歷。
零基礎學(xué)習大數據分析工作,需要有一定的編程能力,編程能力是可以練習與提升的。
目前大數據行業(yè)對于對于人才的要求也比較全面且嚴格。對于高級的大數據分析人才,會(huì )SAS、R、PYTHON三個(gè)軟件中的一個(gè)或者多個(gè)是基礎的要求,回同時(shí)要求有一定的數理統計基礎,這是對專(zhuān)業(yè)知識的要求,懂業(yè)務(wù)、有邏輯答、對數據敏感、能夠寫(xiě)分析報告、用數據解決實(shí)際問(wèn)題,這是對數據分析人才的高級要求。
首先我們要了解Java語(yǔ)言和Linux操作系統,這兩個(gè)是學(xué)習大數據的基礎,學(xué)習的順序不分前后。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術(shù),學(xué)java SE 就相當于有學(xué)習大數據基礎。Linux:因為大數據相關(guān)軟件都是在Linux上運行的,所以L(fǎng)inux要學(xué)習的扎實(shí)一些,學(xué)好Linux對你快速掌握大數據相關(guān)技術(shù)會(huì )有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環(huán)境和網(wǎng)絡(luò )環(huán)境配置,能少踩很多坑,學(xué)會(huì )shell就能看懂腳本這樣能更容易理解和配置大數據集群。
還能讓你對以后新出的大數據技術(shù)學(xué)習起來(lái)更快。Hadoop:這是現在流行的大數據處理平臺幾乎已經(jīng)成為大數據的代名詞,所以這個(gè)是必學(xué)的。
Hadoop里面包括幾個(gè)組件HDFS、MapReduce和YARN,HDFS是存儲數據的地方就像我們電腦的硬盤(pán)一樣文件都存儲在這個(gè)上面,MapReduce是對數據進(jìn)行處理計算的,它有個(gè)特點(diǎn)就是不管多大的數據只要給它時(shí)間它就能把數據跑完,但是時(shí)間可能不是很快所以它叫數據的批處理。Zookeeper:這是個(gè)萬(wàn)金油,安裝Hadoop的HA的時(shí)候就會(huì )用到它,以后的Hbase也會(huì )用到它。
它一般用來(lái)存放一些相互協(xié)作的信息,這些信息比較小一般不會(huì )超過(guò)1M,都是使用它的軟件對它有依賴(lài),對于我們個(gè)人來(lái)講只需要把它安裝正確,讓它正常的run起來(lái)就可以了。Mysql:我們學(xué)習完大數據的處理了,接下來(lái)學(xué)習學(xué)習小數據的處理工具mysql數據庫,因為一會(huì )裝hive的時(shí)候要用到,mysql需要掌握到什么層度那?你能在Linux上把它安裝好,運行起來(lái),會(huì )配置簡(jiǎn)單的權限,修改root的密碼,創(chuàng )建數據庫。
這里主要的是學(xué)習SQL的語(yǔ)法,因為hive的語(yǔ)法和這個(gè)非常相似。Sqoop:這個(gè)是用于把Mysql里的數據導入到Hadoop里的。
當然你也可以不用這個(gè),直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。Hive:這個(gè)東西對于會(huì )SQL語(yǔ)法的來(lái)說(shuō)就是神器,它能讓你處理大數據變的很簡(jiǎn)單,不會(huì )再費勁的編寫(xiě)MapReduce程序。
有的人說(shuō)Pig那?它和Pig差不多掌握一個(gè)就可以了。Oozie:既然學(xué)會(huì )Hive了,我相信你一定需要這個(gè)東西,它可以幫你管理你的Hive或者M(jìn)apReduce、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發(fā)報警并能幫你重試程序,最重要的是還能幫你配置任務(wù)的依賴(lài)關(guān)系。
我相信你一定會(huì )喜歡上它的,不然你看著(zhù)那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺(jué)。Hbase:這是Hadoop生態(tài)體系中的NOSQL數據庫,他的數據是按照key和value的形式存儲的并且key是唯一的,所以它能用來(lái)做數據的排重,它與MYSQL相比能存儲的數據量大很多。
所以他常被用于大數據處理完成之后的存儲目的地。Kafka:這是個(gè)比較好用的隊列工具,隊列是干嗎的?排隊買(mǎi)票你知道不?數據多了同樣也需要排隊處理,這樣與你協(xié)作的其它同學(xué)不會(huì )叫起來(lái),你干嗎給我這么多的數據(比如好幾百G的文件)我怎么處理得過(guò)來(lái),你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時(shí)候一個(gè)個(gè)拿,這樣他就不在抱怨了馬上灰流流的去優(yōu)化他的程序去了,因為處理不過(guò)來(lái)就是他的事情。
而不是你給的問(wèn)題。當然我們也可以利用這個(gè)工具來(lái)做線(xiàn)上實(shí)時(shí)數據的入庫或入HDFS,這時(shí)你可以與一個(gè)叫Flume的工具配合使用,它是專(zhuān)門(mén)用來(lái)提供對數據進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數據接受方(比如Kafka)的。
Spark:它是用來(lái)彌補基于MapReduce處理數據速度上的缺點(diǎn),它的特點(diǎn)是把數據裝載到內存中計算而不是去讀慢的要死進(jìn)化還特別慢的硬盤(pán)。特別適合做迭代運算,所以算法流們特別稀飯它。
它是用scala編寫(xiě)的。Java語(yǔ)言或者Scala都可以操作它,因為它們都是用JVM的。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.583秒