首先,從知識(shí)體系的角度來看,當(dāng)前學(xué)習(xí)數(shù)據(jù)分析需要學(xué)習(xí)三大塊知識(shí),其一是數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、其二是大數(shù)據(jù)知識(shí)、其三是行業(yè)知識(shí)。
數(shù)學(xué)和統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基礎(chǔ),在大數(shù)據(jù)時(shí)代,要想在數(shù)據(jù)分析領(lǐng)域走得更遠(yuǎn),一定要重視數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)的學(xué)習(xí)。從某種程度上來說,數(shù)據(jù)分析就是構(gòu)建在數(shù)學(xué)和統(tǒng)計(jì)學(xué)基礎(chǔ)之上的,雖然當(dāng)前有很多數(shù)據(jù)分析工具和平臺(tái)可以使用,但是如果脫離數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí),數(shù)據(jù)分析往往很難深入。對(duì)于數(shù)學(xué)基礎(chǔ)比較薄弱的人來說,在學(xué)習(xí)數(shù)據(jù)分析的過程中,可以同時(shí)補(bǔ)學(xué)數(shù)學(xué)知識(shí),包括線性代數(shù)和概率論等等。
數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)體系的重要組成部分,實(shí)際上當(dāng)前的數(shù)據(jù)分析也是大數(shù)據(jù)進(jìn)行數(shù)據(jù)價(jià)值化的主要手段之一,所以當(dāng)前學(xué)習(xí)數(shù)據(jù)分析一定不能脫離大數(shù)據(jù)技術(shù)體系。在大數(shù)據(jù)平臺(tái)的支撐下,數(shù)據(jù)分析可以借助于大數(shù)據(jù)平臺(tái)來達(dá)到一個(gè)更好的分析效果,比如速度提升就非常明顯。
從數(shù)據(jù)分析的手段上來看,當(dāng)前數(shù)據(jù)分析主要有兩種方式,一種是統(tǒng)計(jì)學(xué)方式,另一種就是機(jī)器學(xué)習(xí)方式,當(dāng)前機(jī)器學(xué)習(xí)的數(shù)據(jù)分析方式受到了廣泛的關(guān)注,基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析未來也有廣闊的發(fā)展和應(yīng)用空間。采用機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)分析,需要從算法設(shè)計(jì)開始入手,然后完成算法實(shí)現(xiàn)、算法訓(xùn)練、算法驗(yàn)證和算法應(yīng)用等一系列環(huán)節(jié)。
最后,對(duì)于數(shù)據(jù)分析的初學(xué)者來說,可以從Python開始學(xué)起,然后進(jìn)一步學(xué)習(xí)數(shù)據(jù)庫、大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)等內(nèi)容,大數(shù)據(jù)平臺(tái)可以考慮一下Hadoop和Spark。
從技術(shù)角度上來看,數(shù)據(jù)分析雖然有應(yīng)用及數(shù)據(jù)分析和開發(fā)及數(shù)據(jù)分析兩種方式,但是從業(yè)者都需要具備三方面基礎(chǔ)知識(shí),分別是數(shù)學(xué)基礎(chǔ)、統(tǒng)計(jì)學(xué)基礎(chǔ)和計(jì)算機(jī)基礎(chǔ)。
統(tǒng)計(jì)學(xué)技能——統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基礎(chǔ),掌握統(tǒng)計(jì)學(xué)的基本知識(shí)是數(shù)據(jù)分析師的基本功。從數(shù)據(jù)采集、抽樣到具體分析時(shí)的驗(yàn)證探索和預(yù)測都要用到統(tǒng)計(jì)學(xué)。
社會(huì)學(xué)技能——從社會(huì)化角度看,人有社會(huì)性,收群體心理的影響。數(shù)據(jù)分析師沒有社會(huì)學(xué)基本技能,很難對(duì)市場現(xiàn)象做出合理解釋。
用數(shù)據(jù)庫來存儲(chǔ)數(shù)據(jù),如MySQL,PostgreSQL,CouchDB,MongoDB,Cassandra等。理解數(shù)據(jù)庫并且能熟練使用它,將是一個(gè)基礎(chǔ)能力。
當(dāng)前GIS的功能進(jìn)展2006/12/31 11:35 A.M. 地理信息系統(tǒng)GIS(Geographic Information System)是近20年來發(fā)展起來的一門綜合性的技術(shù),它涉及到地理學(xué)、測繪學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)等學(xué)科。
它的概念和基礎(chǔ)是地理和測繪,它的技術(shù)支撐是計(jì)算機(jī)技術(shù),它的應(yīng)用領(lǐng)域是地理、規(guī)劃與管理等許多行業(yè)和部門。隨著信息技術(shù)尤其是計(jì)算機(jī)技術(shù)的快速發(fā)展、數(shù)字地球的提出與實(shí)施,GIS應(yīng)用程度的不斷深入和應(yīng)用范圍的逐漸擴(kuò)大,正處于急劇變化與發(fā)展之中。
1.1 空間信息的獲取與處理 空間信息的獲取技術(shù)包括:野外全站儀測量、GPS測量、地圖掃描數(shù)字化、數(shù)字?jǐn)z影測量、從遙感影像進(jìn)行目標(biāo)測量等。野外全站儀測量、GPS測量的軟件已基本普及。
地圖掃描數(shù)字化技術(shù)及轉(zhuǎn)化成矢量數(shù)據(jù)庫的技術(shù)日趨成熟并已商品化,如ESRI公司的ArcScan。目前的技術(shù)大多采用交互和自動(dòng)相結(jié)合,在自動(dòng)消除噪音和色斑后,可自動(dòng)跟蹤單線和多邊形邊界,并自動(dòng)識(shí)別斷點(diǎn)、虛線、符號(hào)線,自動(dòng)角度取直,交互時(shí)可以進(jìn)行柵格-矢量一體化編輯。
雖然掃描數(shù)字化大大提高了圖形數(shù)據(jù)輸入的效率和精度,但數(shù)字化后的編輯和屬性數(shù)據(jù)的輸入依然很繁重。 GPS集成到GIS中和GIS用于野外,使實(shí)時(shí)獲取野外數(shù)據(jù)取得重大進(jìn)展。
遙感影像正在被用來作為一種基本地圖,使之成為GIS最重要的一層。用數(shù)字?jǐn)z影測量方法自動(dòng)獲取DEM、數(shù)字正射影像,人工交互獲取矢量線劃數(shù)據(jù)的技術(shù)已得到廣泛使用。
在我國,該項(xiàng)技術(shù)處于世界領(lǐng)先水平,儀器設(shè)備和軟件出口,而且承擔(dān)國外的數(shù)據(jù)采集任務(wù)。 用遙感制作數(shù)字正射影像,并用交互式方法進(jìn)行目標(biāo)提取的技術(shù)也已基本成熟,已生產(chǎn)出大量遙感數(shù)字正射影像數(shù)據(jù)。
在空間信息獲取方面,剩下的是地物目標(biāo)的自動(dòng)識(shí)別和自動(dòng)測量問題,包括掃描地圖的要素識(shí)別、數(shù)字?jǐn)z影測量和遙感目標(biāo)的自動(dòng)提取。這是一個(gè)需要長期研究的課題,短期內(nèi)難以取得突破。
從技術(shù)角度講,空間數(shù)據(jù)處理的方法與技術(shù)已基本成熟,但是仍缺少效率高、自動(dòng)化程度好的空間數(shù)據(jù)處理專用軟件。 空間數(shù)據(jù)獲取與處理的另一個(gè)發(fā)展趨勢是網(wǎng)絡(luò)化空間數(shù)據(jù)生產(chǎn)。
它是指空間數(shù)據(jù)采集與處理工作基于一個(gè)局域網(wǎng)環(huán)境,并用一個(gè)網(wǎng)絡(luò)數(shù)據(jù)生產(chǎn)管理軟件進(jìn)行生產(chǎn)調(diào)度、監(jiān)控和質(zhì)量控制,以提高空間數(shù)據(jù)的生產(chǎn)效率和保證數(shù)據(jù)的安全。隨著新型傳感器的發(fā)展,空間數(shù)據(jù)信息源的獲取設(shè)備與技術(shù)正處于一個(gè)快速發(fā)展時(shí)期,激光掃描雷達(dá)、高分辨率數(shù)字?jǐn)z影測量相機(jī)、紅外相機(jī)、干涉雷達(dá)等一批新型航測遙感設(shè)備,將使我們獲取的空間信息更加豐富。
1.2 空間數(shù)據(jù)存儲(chǔ)和檢索 GIS空間數(shù)據(jù)管理已經(jīng)走出了文件管理的模式。最初的GIS軟件一般采用文件方法管理矢量圖形數(shù)據(jù),利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)管理屬性數(shù)據(jù)。
目前主要的GIS軟件都采用了商用關(guān)系數(shù)據(jù)庫管理系統(tǒng)同時(shí)管理圖形和屬性數(shù)據(jù)。如國外的ARC/INFO、GEOMEDIA,國內(nèi)的GEOSTAR、MAPGIS、SUPERMAP等。
在數(shù)據(jù)查詢和訪問上,采用標(biāo)準(zhǔn)的SQL命令來訪問和操作數(shù)據(jù)(包括對(duì)數(shù)據(jù)的增、刪、改)。在提高查詢速度上,大多引進(jìn)四叉樹和R樹等空間索引技術(shù)。
1.3 數(shù)據(jù)處理和分析 GIS在這一方面的問題是,精通分析與模型化技術(shù)的數(shù)學(xué)專家對(duì)GIS了解不多,而GIS的開發(fā)者往往對(duì)空間數(shù)據(jù)的分析、模型化和空間統(tǒng)計(jì)方面知之甚少。在標(biāo)準(zhǔn)的商業(yè)系統(tǒng)中,仍然沒有基本的通用的空間分析程序,而且也沒有基本的通用模型化工具。
值得注意的是,GIS廠商正在他們的產(chǎn)品中包含柵格數(shù)據(jù)處理功能,并將其作為單獨(dú)的模塊提供給用戶,如MapInfo公司的Vertical Mapper。1.4 數(shù)據(jù)輸出GIS在數(shù)據(jù)輸出方面最令人興奮的進(jìn)展在于隨著Internet和WWW技術(shù)的應(yīng)用,使GIS的地理信息和地圖數(shù)據(jù)輸出跨越了時(shí)間和空間。
任何用戶可以在任何時(shí)間任何地點(diǎn)通過互聯(lián)網(wǎng)去訪問Web服務(wù)器上安裝的GIS,可以在自己定制的界面上獲得地圖信息、制作專題地圖、進(jìn)行地理分析等。應(yīng)該說已經(jīng)商品化的WebGIS都還處于初級(jí)階段,WebGIS提供的查詢和分析功能還不能滿足專業(yè)應(yīng)用的需要。
但WebGIS的出現(xiàn)已經(jīng)開始改變GIS傳統(tǒng)的數(shù)據(jù)輸出和地圖發(fā)布的方式,為地理信息的高度社會(huì)化共享提供了可能。2.1 WebGIS的發(fā)展趨勢 WebGIS是以現(xiàn)有的Internet/Intranet為架構(gòu)基礎(chǔ)的網(wǎng)絡(luò)互操作應(yīng)用系統(tǒng),它可利用Internet在Web上發(fā)布空間數(shù)據(jù),為用戶提供空間數(shù)據(jù)瀏覽、查詢和分析的功能。
一方面,WebGIS可為公眾提供交通、旅游、餐飲、娛樂、房地產(chǎn)、購物等與空間信息有關(guān)的在線信息服務(wù);另一方面,WebGIS可為基于Intranet的企業(yè)內(nèi)部業(yè)務(wù)管理提供服務(wù),如幫助企業(yè)進(jìn)行設(shè)備管理、線路管理以及安全監(jiān)控管理,等等。WebGIS的廣泛應(yīng)用,使得它已經(jīng)成為目前國際GIS發(fā)展的必然趨勢。
通過WebGIS,人們可以方便地從WWW的任意一個(gè)節(jié)點(diǎn)瀏覽或獲取Web上的各種分布式地理空間數(shù)據(jù)以及進(jìn)行各種在線的地理空間分析。2.2 WebGIS的特征1)更廣泛的訪問范圍。
2)平臺(tái)獨(dú)立性。無論服務(wù)器/客戶機(jī)是何種機(jī)器,無論WebGIS服務(wù)器端使用何種GIS軟 件,由于使用了通用的Web瀏覽器,用戶就可以透明地訪問WebGIS數(shù)據(jù),在本機(jī)或某個(gè)服務(wù)器上進(jìn)行分。
數(shù)據(jù)分析員需要掌握哪些知識(shí)
1、你需要有應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)量經(jīng)濟(jì)學(xué)專業(yè)本科或者工學(xué)碩士層次水平的數(shù)學(xué)知識(shí)背景。
2、至少熟練SPSS、STATISTIC、Eviews、SAS等數(shù)據(jù)分析軟件中的一門。
3、至少能夠用Acess等進(jìn)行數(shù)據(jù)庫開發(fā);
4、至少掌握一門數(shù)學(xué)軟件:matalab,mathmatics進(jìn)行新模型的構(gòu)建。
5、至少掌握一門編程語言;
6,當(dāng)然還要其他應(yīng)用領(lǐng)域方面的知識(shí),比如市場營銷、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)等,因?yàn)檫@是數(shù)據(jù)分析的主要應(yīng)用領(lǐng)域。
好! 我告訴你。 我畢業(yè)兩年了,都是做c/c++開發(fā)方面的~
首先說一下數(shù)據(jù)結(jié)構(gòu)和vc/mfc以及數(shù)據(jù)結(jié)構(gòu)的應(yīng)用,vc/mfc主要是開發(fā)上位機(jī)軟件,即pc機(jī)上的軟件的。一般情況下做vc一般開發(fā)不需要掌握太多的數(shù)據(jù)結(jié)構(gòu)知識(shí)。開發(fā)中不會(huì)用太多,了解就夠了。數(shù)據(jù)結(jié)構(gòu)一般常用在嵌入式開發(fā),譬如路由器開發(fā)里常用到樹結(jié)構(gòu)。
第二數(shù)據(jù)結(jié)構(gòu)和數(shù)學(xué),數(shù)據(jù)結(jié)構(gòu)里用的最多的是離散數(shù)學(xué),尤其是樹和圖,基本就是離散數(shù)學(xué)的知識(shí),其次是線性代數(shù)里的矩陣也用的比較多。所以學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)也不一定要把所有的數(shù)學(xué)都學(xué)好。不過要想學(xué)得好必須先學(xué)好我指的那幾點(diǎn)。否則學(xué)起來比較吃力。
第三c++、數(shù)據(jù)結(jié)構(gòu)、vc++。的順序問題,數(shù)據(jù)結(jié)構(gòu)是不分語種的,但你要想學(xué)c++版的數(shù)據(jù)結(jié)構(gòu),你首先得了解c++的一般語法吧,至少得看懂偽代碼,常用的c++結(jié)構(gòu),指針、類的使用等。要知道c++是計(jì)算機(jī)語言、vc是開發(fā)工具、數(shù)據(jù)結(jié)構(gòu)是程序的思路,數(shù)學(xué)是基礎(chǔ)。好了,不啰嗦了,相信你都已經(jīng)明白了
1)具有業(yè)務(wù)敏感度,反應(yīng)迅速,能夠良好溝通;
2)具有數(shù)據(jù)分析和數(shù)據(jù)倉庫建模的項(xiàng)目實(shí)踐經(jīng)驗(yàn);
3)3年及以上數(shù)據(jù)分析經(jīng)驗(yàn),有互聯(lián)網(wǎng)產(chǎn)品、運(yùn)營分析經(jīng)驗(yàn);
4)熟悉R、SAS、SPSS等統(tǒng)計(jì)分析軟件,熟練運(yùn)用Python,熟練使用 SQL、Hive等;
5)本科或以上學(xué)歷,數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)、運(yùn)籌學(xué)等相關(guān)專業(yè);
那么對(duì)于正在入門階段的同學(xué)們應(yīng)該如何正確把握自己的學(xué)習(xí)方向呢?
從學(xué)科知識(shí)來看,數(shù)據(jù)分析涉及到一下的知識(shí)要點(diǎn):
(1)統(tǒng)計(jì)學(xué):參數(shù)檢驗(yàn)、非參檢驗(yàn)、回歸分析等
(2)數(shù)學(xué):線性代數(shù)、微積分等
(3)社會(huì)學(xué):主要是一些社會(huì)學(xué)量化統(tǒng)計(jì)的知識(shí),如問卷調(diào)查與統(tǒng)計(jì)分析;還有就是一些社會(huì)學(xué)的知識(shí),這些對(duì)于從事營銷類的數(shù)據(jù)分析人員比較有幫助
(4)經(jīng)濟(jì)金融:如果是從事這個(gè)行業(yè)的數(shù)據(jù)分析人員,經(jīng)濟(jì)金融知識(shí)是必須的,這里就不多說了
1)數(shù)據(jù)分析報(bào)告類:Microsoft Office軟件等,如果連excel表格基本的處理操作都不會(huì),連PPT報(bào)告都不會(huì)做,那我只好說離數(shù)據(jù)分析的崗位還差的很遠(yuǎn)。現(xiàn)在的數(shù)據(jù)呈現(xiàn)不再單單只是表格的形式,而是更多需要以可視化圖表去展示你的數(shù)據(jù)結(jié)果,因?yàn)閿?shù)據(jù)可視化軟件就不能少,BDP個(gè)人版、TABLUEA、Echart等這些必備的
(2)專業(yè)數(shù)據(jù)分析軟件:常見的有諸如SPSS、SAS、Matlab等等,這些軟件可以很好地幫助我們完成專業(yè)性的算法或模型分析,還有高級(jí)的Python、R等。
(3)數(shù)據(jù)庫:hive、hadoop、impala等數(shù)據(jù)庫相關(guān)的知識(shí)可以學(xué)習(xí);
(3)輔助工具:比如思維導(dǎo)圖軟件(如MindManager、MindNode Pro等)也可以很好地幫助我們整理分析思路。
希望同學(xué)們謹(jǐn)記:理論知識(shí)+軟件工具+數(shù)據(jù)思維=數(shù)據(jù)分析基礎(chǔ),最后要把這些數(shù)據(jù)分析基礎(chǔ)運(yùn)用到實(shí)際的工作業(yè)務(wù)中,好好理解業(yè)務(wù)邏輯,真正用數(shù)據(jù)分析驅(qū)動(dòng)網(wǎng)站運(yùn)營、業(yè)務(wù)管理,真正發(fā)揮數(shù)據(jù)的價(jià)值。
數(shù)據(jù)分析所需要掌握的知識(shí):
數(shù)學(xué)知識(shí)
對(duì)于初級(jí)數(shù)據(jù)分析師來說,則需要了解統(tǒng)計(jì)相關(guān)的基礎(chǔ)性內(nèi)容,公式計(jì)算,統(tǒng)計(jì)模型等。當(dāng)你獲得一份數(shù)據(jù)集時(shí),需要先進(jìn)行了解數(shù)據(jù)集的質(zhì)量,進(jìn)行描述統(tǒng)計(jì)。
而對(duì)于高級(jí)數(shù)據(jù)分析師,必須具備統(tǒng)計(jì)模型的能力,線性代數(shù)也要有一定的了解。
分析工具
對(duì)于分析工具,SQL 是必須會(huì)的,還有要熟悉Excel數(shù)據(jù)透視表和公式的使用,另外,還要學(xué)會(huì)一個(gè)統(tǒng)計(jì)分析工具,SAS作為入門是比較好的,VBA 基本必備,SPSS/SAS/R 至少要熟練使用其中之一,其他分析工具(如 Matlab)可以視情況而定。
編程語言
數(shù)據(jù)分析領(lǐng)域最熱門的兩大語言是 R 和 Python。涉及各類統(tǒng)計(jì)函數(shù)和工具的調(diào)用,R無疑有優(yōu)勢。但是大數(shù)據(jù)量的處理力不足,學(xué)習(xí)曲線比較陡峭。Python 適用性強(qiáng),可以將分析的過程腳本化。所以,如果你想在這一領(lǐng)域有所發(fā)展,學(xué)習(xí) Python 也是相當(dāng)有必要的。
當(dāng)然其他編程語言也是需要掌握的。要有獨(dú)立把數(shù)據(jù)化為己用的能力, 這其中SQL 是最基本的,你必須會(huì)用 SQL 查詢數(shù)據(jù)、會(huì)快速寫程序分析數(shù)據(jù)。當(dāng)然,編程技術(shù)不需要達(dá)到軟件工程師的水平。要想更深入的分析問題你可能還會(huì)用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
業(yè)務(wù)理解
對(duì)業(yè)務(wù)的理解是數(shù)據(jù)分析師工作的基礎(chǔ),數(shù)據(jù)的獲取方案、指標(biāo)的選取、還有最終結(jié)論的洞察,都依賴于數(shù)據(jù)分析師對(duì)業(yè)務(wù)本身的理解。
對(duì)于初級(jí)數(shù)據(jù)分析師,主要工作是提取數(shù)據(jù)和做一些簡單圖表,以及少量的洞察結(jié)論,擁有對(duì)業(yè)務(wù)的基本了解就可以。對(duì)于高級(jí)數(shù)據(jù)分析師,需要對(duì)業(yè)務(wù)有較為深入的了解,能夠基于數(shù)據(jù),提煉出有效觀點(diǎn),對(duì)實(shí)際業(yè)務(wù)能有所幫助。對(duì)于數(shù)據(jù)挖掘工程師,對(duì)業(yè)務(wù)有基本了解就可以,重點(diǎn)還是需要放在發(fā)揮自己的技術(shù)能力上。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.205秒