一、描述性統(tǒng)計
描述性統(tǒng)計是一類統(tǒng)計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統(tǒng)計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數值服從或近似服從正態(tài)分布,所以在做數據分析之前需要進行正態(tài)性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀測數據建立變量間適當的依賴關系,以分析數據內在規(guī)律。
1. 一元線性分析
只有一個自變量X與因變量Y有關,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3. 多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數據,但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數據也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
去百度文庫,查看完整內容>
內容來自用戶:茍燁濤
統(tǒng)計中經常會用到各種檢驗,如何知道何時用什么檢驗呢,根據結合自己的工作來說一說:
t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。配對t檢驗:是采用配對設計方法觀察以下幾種情形,1,兩個同質受試對象分別接受兩種不同的處理;2,同一受試對象接受兩種不同的處理;3,同一受試對象處理前后。
u檢驗:t檢驗和就是統(tǒng)計量為t,u的假設檢驗,兩者均是常見的假設檢驗方法。當樣本含量n較大時,樣本均數符合正態(tài)分布,故可用u檢驗進行分析。當樣本含量n小時,若觀察值x符合正態(tài)分布,則用t檢驗(因此時樣本均數符合t分布),當x為未知分布時應采用秩和檢驗。F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等,可采用t'檢驗或變量變換或秩和檢驗等方法。其中要判斷兩總體方差是否相等,就可以用F檢驗。
簡單的說就是檢驗兩個樣本的方差是否有顯著性差異這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。用途:用于完全隨機設計的多個樣本均數間的比較,其統(tǒng)計推斷是推斷各樣本所代表的各總體均數是否相等。完全隨機設計(
奇偶校驗”。
內存中最小的單位是比特,也稱為“位”,位有只有兩種狀態(tài)分別以1和0來標示,每8個連續(xù)的比特叫做一個字節(jié)(byte)。不帶奇偶校驗的內存每個字節(jié)只有8位,如果其某一位存儲了錯誤的值,就會導致其存儲的相應數據發(fā)生變化,進而導致應用程序發(fā)生錯誤。
而奇偶校驗就是在每一字節(jié)(8位)之外又增加了一位作為錯誤檢測位。在某字節(jié)中存儲數據之后,在其8個位上存儲的數據是固定的,因為位只能有兩種狀態(tài)1或0,假設存儲的數據用位標示為1、1、1、0、0、1、0、1,那么把每個位相加(1+1+1+0+0+1+0+1=5),結果是奇數,那么在校驗位定義為1,反之為0。
當CPU讀取存儲的數據時,它會再次把前8位中存儲的數據相加,計算結果是否與校驗位相一致。從而一定程度上能檢測出內存錯誤,奇偶校驗只能檢測出錯誤而無法對其進行修正,同時雖然雙位同時發(fā)生錯誤的概率相當低,但奇偶校驗卻無法檢測出雙位錯誤。
MD5的全稱是Message-Digest Algorithm 5,在90年代初由MIT的計算機科學實驗室和RSA Data Security Inc 發(fā)明,由 MD2/MD3/MD4 發(fā)展而來的。MD5的實際應用是對一段Message(字節(jié)串)產生fingerprint(指紋),可以防止被“篡改”。
舉個例子,天天安全網提供下載的MD5校驗值軟件WinMD5.zip,其MD5值是,但你下載該軟件后計算MD5 發(fā)現(xiàn)其值卻是,那說明該ZIP已經被他人修改過,那還用不用該軟件那你可自己琢磨著看啦。 MD5廣泛用于加密和解密技術上,在很多操作系統(tǒng)中,用戶的密碼是以MD5值(或類似的其它算法)的方式保存的,用戶Login的時候,系統(tǒng)是把用戶輸入的密碼計算成MD5值,然后再去和系統(tǒng)中保存的MD5值進行比較,來驗證該用戶的合法性。
MD5校驗值軟件WinMD5.zip漢化版,使用極其簡單,運行該軟件后,把需要計算MD5值的文件用鼠標拖到正在處理的框里邊,下面將直接顯示其MD5值以及所測試的文件名稱,可以保留多個文件測試的MD5值,選定所需要復制的MD5值,用CTRL+C就可以復制到其它地方了。 參考資料:CRC算法原理及C語言實現(xiàn) -來自(我愛單片機)摘 要 本文從理論上推導出CRC算法實現(xiàn)原理,給出三種分別適應不同計算機或微控制器硬件環(huán)境的C語言程序。
讀者更能根據本算法原理,用不同的語言編寫出獨特風格更加實用的CRC計算程序。關鍵詞 CRC 算法 C語言1 引言循環(huán)冗余碼CRC檢驗技術廣泛應用于測控及通信領域。
CRC計算可以靠專用的硬件來實現(xiàn),但是對于低成本的微控制器系統(tǒng),在沒有硬件支持下實現(xiàn)CRC檢驗,關鍵的問題就是如何通過軟件來完成CRC計算,也就是CRC算法的問題。這里將提供三種算法,它們稍有不同,一種適用于程序空間十分苛刻但CRC計算速度要求不高的微控制器系統(tǒng),另一種適用于程序空間較大且CRC計算速度要求較高的計算機或微控制器系統(tǒng),最后一種是適用于程序空間不太大,且CRC計算速度又不可以太慢的微控制器系統(tǒng)。
2 CRC簡介CRC 校驗的基本思想是利用線性編碼理論,在發(fā)送端根據要傳送的k位二進制碼序列,以一定的規(guī)則產生一個校驗用的監(jiān)督碼(既CRC碼)r位,并附在信息后邊,構成一個新的二進制碼序列數共(k+r)位,最后發(fā)送出去。在接收端,則根據信息碼和CRC碼之間所遵循的規(guī)則進行檢驗,以確定傳送中是否出錯。
16位的CRC碼產生的規(guī)則是先將要發(fā)送的二進制序列數左移16位(既乘以 )后,再除以一個多項式,最后所得到的余數既是CRC碼,如式(2-1)式所示,其中B(X)表示n位的二進制序列數,G(X)為多項式,Q(X)為整數,R(X)是余數(既CRC碼)。(2-1)求CRC 碼所采用模2加減運算法則,既是不帶進位和借位的按位加減,這種加減運算實際上就是邏輯上的異或運算,加法和減法等價,乘法和除法運算與普通代數式的乘除法運算是一樣,符合同樣的規(guī)律。
生成CRC碼的多項式如下,其中CRC-16和CRC-CCITT產生16位的CRC碼,而CRC-32則產生的是32位的CRC碼。本文不討論32位的CRC算法,有興趣的朋友可以根據本文的思路自己去推導計算方法。
CRC-16:(美國二進制同步系統(tǒng)中采用)CRC-CCITT:(由歐洲CCITT推薦)CRC-32:接收方將接收到的二進制序列數(包括信息碼和CRC碼)除以多項式,如果余數為0,則說明傳輸中無錯誤發(fā)生,否則說明傳輸有誤,關于其原理這里不再多述。用軟件計算CRC碼時,接收方可以將接收到的信息碼求CRC碼,比較結果和接收到的CRC碼是否相同。
3 按位計算CRC對于一個二進制序列數可以表示為式(3-1):(3-1)求此二進制序列數的CRC碼時,先乘以 后(既左移16位),再除以多項式G(X),所得的余數既是所要求的CRC碼。如式(3-2)所示:(3-2)可以設: (3-3)其中 為整數, 為16位二進制余數。
將式(3-3)代入式(3-2)得:(3-4)再設: (3-5)其中 為整數, 為16位二進制余數,將式(3-5)代入式(3-4),如上類推,最后得到:(3-6)根據CRC的定義,很顯然,。
實現(xiàn)方法:最簡單的校驗就是把原始數據和待比較數據直接進行比較,看是否完全一樣這種方法是最安全最準確的。同時也是效率最低的。
應用例子:龍珠cpu在線調試工具bbug.exe。它和龍珠cpu間通訊時,bbug發(fā)送一個字節(jié)cpu返回收到的字節(jié),bbug確認是剛才發(fā)送字節(jié)后才繼續(xù)發(fā)送下一個字節(jié)的。 實現(xiàn)方法:在數據存儲和傳輸中,字節(jié)中額外增加一個比特位,用來檢驗錯誤。校驗位可以通過數據位異或計算出來。
應用例子:單片機串口通訊有一模式就是8位數據通訊,另加第9位用于放校驗值。
bcc異或校驗法(block check character)
實現(xiàn)方法:很多基于串口的通訊都用這種既簡單又相當準確的方法。它就是把所有數據都和一個指定的初始值(通常是0)異或一次,最后的結果就是校驗值,通常把它附在通訊數據的最后一起發(fā)送出去。接收方收到數據后自己也計算一次異或和校驗值,如果和收到的校驗值一致就說明收到的數據是完整的。
校驗值計算的代碼類似于:
unsigned uCRC=0;//校驗初始值
for(int i=0;i<DataLenth;i++) uCRC^=Data[i];
適用范圍:適用于大多數要求不高的數據通訊。
應用例子:ic卡接口通訊、很多單片機系統(tǒng)的串口通訊都使用。 (Cyclic Redundancy Check)
實現(xiàn)方法:這是利用除法及余數的原理來進行錯誤檢測的.將接收到的碼組進行除法運算,如果除盡,則說明傳輸無誤;如果未除盡,則表明傳輸出現(xiàn)差錯。crc校驗具還有自動糾錯能力。
crc檢驗主要有計算法和查表法兩種方法,網上很多實現(xiàn)代碼。
適用范圍:CRC-12碼通常用來傳送6-bit字符串;CRC-16及CRC-CCITT碼則用是來傳送8-bit字符。CRC-32:硬盤數據,網絡傳輸等。
應用例子:rar,以太網卡芯片、MPEG解碼芯片中 實現(xiàn)方法:主要有md5和des算法。
適用范圍:數據比較大或要求比較高的場合。如md5用于大量數據、文件校驗,des用于保
密數據的校驗(數字簽名)等等。
應用例子:文件校驗、銀行系統(tǒng)的交易數據
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術。因子分析就是從大量的數據中尋找內在的聯(lián)系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,采用不同的共同性□2估值。在社會學研究中,因子分析常采用以主成分分析為基礎的反覆法。
3、相關分析(Correlation Analysis)
相關分析(correlation analysis),相關分析是研究現(xiàn)象之間是否存在某種依存關系,并對具體有依存關系的現(xiàn)象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱關聯(lián)分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。對應分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變量Y對另一個(X)或一組(X1,X2,…,Xk)變量的相依關系的統(tǒng)計分析方法?;貧w分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱“變異數分析”或“F檢驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。由于各種因素的影響,研究所得的數據呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。這個 還需要具體問題具體分析
統(tǒng)計方法有: 1、計量資料的統(tǒng)計方法 分析計量資料的統(tǒng)計分析方法可分為參數檢驗法和非參數檢驗法。
參數檢驗法主要為t檢驗和 方差分析(ANOVN,即F檢驗)等,兩組間均數比較時常用t檢驗和u檢驗,兩組以上均數比較時常用方差分析;非參數檢驗法主要包括秩和檢驗等。t檢驗可分為單組設計資料的t檢驗、配對設計資料的t檢驗和成組設計資料的t檢驗;當兩個小 樣本比較時要求兩 總體分布為 正態(tài)分布且方差齊性,若不能滿足以上要求,宜用t 檢驗或非參數方法( 秩和檢驗)。
方差分析可用于兩個以上 樣本均數的比較,應用該方法時,要求各個樣本是相互獨立的隨機樣本,各樣本來自正態(tài)總體且各處理組總體方差齊性。根據設計類型不同,方差分析中又包含了多種不同的方法。
對于 定量資料,應根據所采用的設計類型、資料所具備的條件和分析目的,選用合適的統(tǒng)計分析方法,不應盲目套用t檢驗和 單因素方差分析。 2、計數資料的統(tǒng)計方法 計數資料的統(tǒng)計方法主要針對四格表和R*C表利用檢驗進行分析。
檢驗或u檢驗,若不能滿足 檢驗:當計數資料呈配對設計時,獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書籍。 R*C表可以分為雙向無序,單向有序、雙向有序屬性相同和雙向有序屬性不同四類,不同類的行列表根據其研究目的,其選擇的方法也不一樣。
3、等級資料的統(tǒng)計方法 等級資料(有序變量)是對性質和類別的等級進行分組,再清點每組觀察單位個數所得到的資料。在臨床醫(yī)學資料中,常遇到一些定性指標,如臨床療效的評價、疾病的臨床分期、病癥嚴重程度的臨床分級等,對這些指標常采用分成若干個等級然后分類計數的辦法來解決它的量化問題,這樣的資料統(tǒng)計上稱為等級資料。
統(tǒng)計方法的選擇: 統(tǒng)計資料豐富且錯綜復雜,要想做到合理選用統(tǒng)計分析方法并非易事。對于同一 個資料,若選擇不同的統(tǒng)計分析方法處理,有時其結論是截然不同的。
正確選擇統(tǒng)計方法的依據是: ①根據研究的目的,明確研究試驗設計類型、研究因素與水平數; ②確定數據特征(是否正態(tài)分布等)和樣本量大小; ③ 正確判斷統(tǒng)計資料所對應的類型(計量、計數和等級資料),同時應根據統(tǒng)計方法的適宜條件進行正確的統(tǒng)計量值計算; 最后,還要根據專業(yè)知識與資料的實際情況,結合統(tǒng)計學原則,靈活地選擇統(tǒng)計分析方法。
統(tǒng)計方法是非常的多的。
像我們生活中比較常接觸到的,圖表分析方法,對于一組數據,進行簡單的各種分組或者是一些占比方面的分析,或者就是計算一些極差,或者計算均值方差等,這些在各個行業(yè)都是比較常見的。如果學習了些統(tǒng)計方面的知識的話,能夠接觸到一些專業(yè)的統(tǒng)計方法。
上面所說的那些圖表都是屬于一些描述性統(tǒng)計方法,還有一些常用的推斷統(tǒng)計方法,像假設檢驗,通過對總體進行一些前提上面的假設,然后通過抽取一部分樣本來對總體的這種假設進行診斷。再個常用的就是參數估計,參數估計就是通過抽取樣本來對總體的參數進行預估,常見的估計總體的參數像方差或者是均值,其中點估計和區(qū)間估計是參數估計的兩個大方面的內容。
統(tǒng)計量抽樣分布、參數估計、假設檢驗這三種方法是在進行統(tǒng)計分析的三個比較大的方面,其中統(tǒng)計量的抽樣分布包括的幾大分布在統(tǒng)計中都是有著舉足輕重的作用的。對于分類數據的一些統(tǒng)計分析中,統(tǒng)計中最常見的就是卡方統(tǒng)計量來進行分析,然后通過結果可以來對總體進行一定的認識,可以看出兩個分類總體是否有一定的相關性。
在研究一個分類型自變量和一個數值型的自變量的時候,最常用的是進行方差分析這種統(tǒng)計方法,來描述一個總體是否有著顯著性的差異。在對兩個自變量都是數值變量的時候,最常用的就是進行模擬一元回歸方程,通過一條趨勢線來描述這個總體的情況,而對應的多元回歸趨勢線就是多個自變量都是數值變量,用來描述多個自變量的回歸問題。
收集方法
1、調查法
調查方法一般分為普查和抽樣調查兩大類。
2、觀察法
主要包括兩個方面:一是對人的行為的觀察,二是對客觀事物的觀察。觀察法應用很廣泛,常和詢問法、搜集實物結合使用,以提高所收集信息的可靠性。
3、實驗方法
實驗方法能通過實驗過程獲取其他手段難以獲得的信息或結論。
實驗方法也有多種形式,如實驗室實驗、現(xiàn)場實驗、計算機模擬實驗、計算機網絡環(huán)境下人機結合實驗等?,F(xiàn)代管理科學中新興的管理實驗,現(xiàn)代經濟學中正在形成的實驗經濟學中的經濟實驗,實質上就是通過實驗獲取與管理或經濟相關的信息。
4、文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過程。文獻檢索分為手工檢索和計算機檢索。
5、網絡信息收集
網絡信息是指通過計算機網絡發(fā)布、傳遞和存儲的各種信息。收集網絡信息的最終目標是給廣大用戶提供網絡信息資源服務,整個過程經過網絡信息搜索、整合、保存和服務四個步驟,
參考資料來源:搜狗百科-信息收集
聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:4.942秒