僅在里邊定義連接字串,在使用的時(shí)候在創(chuàng )建對象,使用完對象就關(guān)閉
Config.asp:
Quote
<%
Dim Def_Sample
Def_Path=server.MapPath("data.mdb")
Def_Sample="DBQ="+Def_Path+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};" '連接字串
%>
文本分類(lèi)問(wèn)題與其它分類(lèi)問(wèn)題沒(méi)有本質(zhì)上的區別,其方法可以歸結為根據待分類(lèi)數據的某些特征來(lái)進(jìn)行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價(jià)標準)選擇最優(yōu)的匹配結果,從而完成分類(lèi)。
后來(lái)人們意識到,究竟依據什么特征來(lái)判斷文本應當隸屬的類(lèi)別這個(gè)問(wèn)題,就連人類(lèi)自己都不太回答得清楚,有太多所謂“只可意會(huì ),不能言傳”的東西在里面。人類(lèi)的判斷大多依據經(jīng)驗以及直覺(jué),因此自然而然的會(huì )有人想到何讓機器像人類(lèi)一樣自己來(lái)通過(guò)對大量同類(lèi)文檔的觀(guān)察來(lái)自己總結經(jīng)驗,作為今后分類(lèi)的依據。
這便是統計學(xué)習方法的基本思想。統計學(xué)習方法需要一批由人工進(jìn)行了準確分類(lèi)的文檔作為學(xué)習的材料(稱(chēng)為訓練集,注意由人分類(lèi)一批文檔比從這些文檔中總結出準確的規則成本要低得多),計算機從這些文檔中挖掘出一些能夠有效分類(lèi)的規則,這個(gè)過(guò)程被形象的稱(chēng)為訓練,而總結出的規則集合常常被稱(chēng)為分類(lèi)器。
訓練完成之后,需要對計算機從來(lái)沒(méi)有見(jiàn)過(guò)的文檔進(jìn)行分類(lèi)時(shí),便使用這些分類(lèi)器來(lái)進(jìn)行。這些訓練集包括sogou文本分類(lèi)分類(lèi)測試數據、中文文本分類(lèi)分類(lèi)語(yǔ)料庫,包含Arts、Literature等類(lèi)別的語(yǔ)料文本、可用于聚類(lèi)的英文文本數據集、網(wǎng)易分類(lèi)文本分類(lèi)文本數據、tc-corpus-train(語(yǔ)料庫訓練集,適用于文本分類(lèi)分類(lèi)中的訓練)、2002年中文網(wǎng)頁(yè)分類(lèi)訓練集CCT2002-v1.1等。
現如今,統計學(xué)習方法已經(jīng)成為了文本分類(lèi)領(lǐng)域絕對的主流。主要的原因在于其中的很多技術(shù)擁有堅實(shí)的理論基礎(相比之下,知識工程方法中專(zhuān)家的主觀(guān)因素居多),存在明確的評價(jià)標準,以及實(shí)際表現良好。
統計分類(lèi)算法 將樣本數據成功轉化為向量表示之后,計算機才算開(kāi)始真正意義上的“學(xué)習”過(guò)程。常用的分類(lèi)算法為:決策樹(shù),Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò ),支持向量機,線(xiàn)性最小平方擬合,kNN,遺傳算法,最大熵,Generalized Instance Set等。
在這里只挑幾個(gè)最具代表性的算法侃一侃。Rocchio算法 Rocchio算法應該算是人們思考文本分類(lèi)問(wèn)題時(shí)最先能想到,也最符合直覺(jué)的解決方法。
基本的思路是把一個(gè)類(lèi)別里的樣本文檔各項取個(gè)平均值(例如把所有 “體育”類(lèi)文檔中詞匯“籃球”出現的次數取個(gè)平均值,再把“裁判”取個(gè)平均值,依次做下去),可以得到一個(gè)新的向量,形象的稱(chēng)之為“質(zhì)心”,質(zhì)心就成了這 個(gè)類(lèi)別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候,比較新文檔和質(zhì)心有多么相像(八股點(diǎn)說(shuō),判斷他們之間的距離)就可以確定新文檔屬不屬于這個(gè)類(lèi)。
稍微改進(jìn)一點(diǎn)的Rocchio算法不僅考慮屬于這個(gè)類(lèi)別的文檔(稱(chēng)為正樣本),也考慮不屬于這個(gè)類(lèi)別的文檔數據(稱(chēng)為負樣本),計算出來(lái)的質(zhì)心盡量靠近正樣本同時(shí)盡量遠離負樣本。Rocchio算法做了兩個(gè)很致命的假設,使得它的性能出奇的差。
一是它認為一個(gè)類(lèi)別的文檔僅僅聚集在一個(gè)質(zhì)心的周?chē)瑢?shí)際情況往往不是如此(這樣的數據稱(chēng)為線(xiàn)性不可分的);二是它假設訓練數據是絕對正確的,因為它沒(méi)有任何定量衡量樣本是否含有噪聲的機制,因而也就對錯誤數據毫無(wú)抵抗力。不過(guò)Rocchio產(chǎn)生的分類(lèi)器很直觀(guān),很容易被人類(lèi)理解,算法也簡(jiǎn)單,還是有一定的利用價(jià)值的,常常被用來(lái)做科研中比較不同算法優(yōu)劣的基線(xiàn)系統(Base Line)。
樸素貝葉斯算法 貝葉斯算法關(guān)注的是文檔屬于某類(lèi)別概率。文檔屬于某個(gè)類(lèi)別的概率等于文檔中每個(gè)詞屬于該類(lèi)別的概率的綜合表達式。
而每個(gè)詞屬于該類(lèi)別的概率又在一定程度上 可以用這個(gè)詞在該類(lèi)別訓練文檔中出現的次數(詞頻信息)來(lái)粗略估計,因而使得整個(gè)計算過(guò)程成為可行的。使用樸素貝葉斯算法時(shí),在訓練階段的主要任務(wù)就是估計這些值。
樸素貝葉斯算法的公式并不是只有一個(gè)。首先對于每一個(gè)樣本中的元素要計算先驗概率。
其次要計算一個(gè)樣本對于每個(gè)分類(lèi)的概率,概率最大的分類(lèi)將被采納。所以 其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1) P(w|C)=元素w在分類(lèi)為C的樣本中出現次數/數據整理后的樣本中元素的總數(式2) 這其中就蘊含著(zhù)樸素貝葉斯算法最大的兩個(gè)缺陷。
首先,P(d| Ci)之所以能展開(kāi)成(式1)的連乘積形式,就是假設一篇文章中的各個(gè)詞之間是彼此獨立的,其中一個(gè)詞的出現絲毫不受另一個(gè)詞的影響(回憶一下概率論中變 量彼此獨立的概念就可以知道),但這顯然不對,即使不是語(yǔ)言學(xué)專(zhuān)家的我們也知道,詞語(yǔ)之間有明顯的所謂“共現”關(guān)系,在不同主題的文章中,可能共現的次數 或頻率有變化,但彼此間絕對談不上獨立。其二,使用某個(gè)詞在某個(gè)類(lèi)別訓練文檔中出現的次數來(lái)估計P(wi|Ci)時(shí),只在訓練樣本數量非常多的情況下才比較準確(考慮扔硬幣的問(wèn)題,得通過(guò)大量觀(guān) 察才能基本得出正反面出現的概率都是二分之一的結論,觀(guān)察次數太少時(shí)很可能得到錯誤的答案),而需要大量樣本的要求不僅給前期人工分類(lèi)的工作帶來(lái)更高要求 (從而成本上升),在后期由計算機處理的時(shí)候也對存儲和計算資源提出了更高的要求。
但是稍有常識的技術(shù)人員都會(huì )了解,數據挖掘中占用大量時(shí)間的部分是數據整理。在數據整理階段,可以根據詞匯的情況生成字典,刪除冗余沒(méi)有意義的。
在word中,以word2010為例來(lái)介紹七種文本選取的方法,以便提升工作效率。
1、第一種選擇字或詞組的方法。
通常是通過(guò)拖動(dòng)鼠標來(lái)實(shí)現單詞和單詞的選擇,另外,基于單詞的強大關(guān)聯(lián)功能,還可以通過(guò)將光標移動(dòng)到短語(yǔ)的中間然后雙擊鼠標來(lái)選擇短語(yǔ),如下圖所示。
2、第二種是選擇單行和段落的方法。
可以將光標移動(dòng)到行的左端,當箭頭處于箭頭狀態(tài)時(shí)單擊鼠標,然后是文本行選中,如果雙擊鼠標,則可以選擇段落文本,相比較拖動(dòng)鼠標來(lái)選擇單行文本這種方法要快得多。
3、第三種是選擇整篇。
只需要將光標移動(dòng)到文檔的左側,顯示光標時(shí),可以通過(guò)三擊左鍵來(lái)選擇整篇文章,除此之外還可以用“Ctrl+A”來(lái)實(shí)現選擇整篇。
4、第四種是跨頁(yè)選擇文本。
如果要選擇的文本不在一頁(yè)上,用手動(dòng)發(fā)票的方式來(lái)選擇是非常不方便的,這時(shí)可以用先停止光標,然后選擇文本,然后向下滾動(dòng)選擇在文本末尾,按住shift并單擊此處的方法。
或是在選擇文本前按住光標,按F8,然后在所選文本末尾單擊鼠標,可以通過(guò)調整鼠標位置靈活選擇文本,之后,按Esc鍵結束。
5、第五種是選擇區域文本的方法。
如果選擇的劃如下圖所示的區域內的文字,用鼠標拖動(dòng)就無(wú)法實(shí)現,這時(shí)可將光標移動(dòng)到選區開(kāi)頭,按住Alt鍵將矩形區域拉出到右下方,將選擇區域中的文本,更改顏色以查看選擇效果。
6、第六種是選擇相似文本的方法。
這一方法主要是針對標題類(lèi)的文本選擇,可先選中某一級的標題,再選擇并點(diǎn)擊“選擇格式相似的文本”,就可以看到同一級的標題都被選中了。
7、第七種是間隔選擇文本的方法。
如果要在同一文本中選擇不同區域的文本,先選擇一部分文本,然后按住Ctrl鍵,再將其它部分加入,若對某一部分不想選擇了,也可以將光標移動(dòng)到此部分,后點(diǎn)擊左鍵即可取消該此部分。
趙琦(黑龍江省總工會(huì ),黑龍江 哈爾濱 150000) 摘要:文書(shū)檔案是社會(huì )發(fā)展的主要記錄載體,從古至今,人們對檔案工作一直都非常重視。
在社會(huì )不斷發(fā)展中,文書(shū)檔案管理方法不斷完善,這也意味著(zhù)文書(shū)檔案的管理不斷細分,因此在文書(shū)檔案管理中需要對檔案進(jìn)行嚴格分類(lèi),以此提高文書(shū)檔案工作效率。本文闡述了文書(shū)檔案工作中最常見(jiàn)的三類(lèi)分類(lèi)方法,主要分為:年度分類(lèi)法、組織機構分類(lèi)法和問(wèn)題分類(lèi)法。
關(guān)鍵詞:文書(shū)檔案;分類(lèi)方法;年度分類(lèi)法;組織機構;問(wèn)題分類(lèi)法 文書(shū)檔案是記載了社會(huì )發(fā)展中各種現實(shí)事物發(fā)生的整體過(guò)程,通過(guò)對歷史客觀(guān)記錄來(lái)衡量某一時(shí)期領(lǐng)導人供給,同時(shí)是反應某一時(shí)期各個(gè)基層、部門(mén)建設和科技成果開(kāi)發(fā)的主要措施。伴隨著(zhù)社會(huì )發(fā)展中,人們對文書(shū)檔案認識的不斷增加,文書(shū)檔案分類(lèi)是與檔案整體工作的基本出發(fā)點(diǎn)和根本目的,是保持文件之間歷史聯(lián)系發(fā)生各種矛盾的過(guò)程中能夠充分的考慮和保管,利用相應的方便來(lái)實(shí)現檔案管理效率。
在文書(shū)檔案工作中,分類(lèi)是通過(guò)將文件按照不同的形式和形成機關(guān)等因素分開(kāi),避免出現不同機關(guān)文件的混雜,造成檔案管理工作的混亂。1 年度分類(lèi)法 就是根據形成和處理文件的年度,是通過(guò)將全宗內的所有文書(shū)檔案按照時(shí)間為標準進(jìn)行逐步區分,通過(guò)形成年限逐次排開(kāi)。
運用年度分類(lèi)法,要求根據文件的準確日期將文書(shū)檔案進(jìn)行歸納,并且注明其形成的實(shí)踐,這是確保分類(lèi)質(zhì)量和效率的關(guān)鍵,同時(shí)也是在當前實(shí)際工作中能夠合理完善檔案分類(lèi)工作的有效措施,其在分類(lèi)的過(guò)程中需要注意一下幾個(gè)方面:一是在實(shí)際社會(huì )活動(dòng)中,不僅有通用的公歷年度,其中也有一些特殊行業(yè)和部門(mén)是按照工作性質(zhì)和工作特點(diǎn)的需要來(lái)對檔案在應用中采用過(guò)去農歷方式進(jìn)行編制的,這就造成檔案在分類(lèi)中容易混淆的問(wèn)題,因此在分類(lèi)的過(guò)程中需要對這種情況嚴加分析,避免出現文檔分類(lèi)的混亂。二是某些文件上有幾種日期,如起草日期、簽署日期、批準日期、會(huì )議通過(guò)日期、發(fā)布日期和收文日期等,這些日期有時(shí)還不屬于同一年度。
在這種情況下,要根據文件的具體情況確定一個(gè)最能說(shuō)明文件時(shí)間特點(diǎn)的日期。通常的做法是:內部文件和一般發(fā)文以文件的寫(xiě)成日期為根據;來(lái)往文件中收文以收到日期為根據;法律、法令和條例等法規文件以批準日期或公布、生效日期為根據;指示、命令等指令性文件以文件簽署日期即落款日期為根據;計劃、總結、預算、決算、統計報表等以?xún)热菟槍Φ臅r(shí)限為根據;跨年度處理的專(zhuān)門(mén)案卷、來(lái)往文書(shū)等可放入關(guān)系最密切的年度或最后結案的年度。
期刊文章分類(lèi)查詢(xún),盡在期刊圖書(shū)館 三是一些文件由于某種原因沒(méi)有標注或找不到日期,對此需要根據文件的具體情況,采取適宜的辦法考證和判定文件的準確或近似的日期,并將其妥善歸類(lèi)。在文書(shū)檔案的管理工作中,對分類(lèi)要求日益增加。
文書(shū)檔案在管理中一般都是通過(guò)以每份文件為一件,文件正本與定稿為一件,正文與附件為一件,元件與復制件為一件,轉發(fā)文件與被轉發(fā)文件。四是在年度分類(lèi)的過(guò)程中一般都是通過(guò)將一份文件結合實(shí)踐特征來(lái)進(jìn)行整理,這是通過(guò)成文時(shí)間、簽發(fā)時(shí)間、批復時(shí)間、通過(guò)實(shí)踐和公布時(shí)間等,不過(guò)在目前的分類(lèi)管理中一般應用醉倒的是文件的簽發(fā)時(shí)間。
以文件簽發(fā)時(shí)間來(lái)判定文件的所屬年度是當前對各個(gè)單位和企業(yè)進(jìn)行總結的主要方法,同時(shí)也是按照新方法取消其中內容的主要手段。2 組織機構分類(lèi)法 就是根據文書(shū)處理階段形成和處理文件的承辦單位進(jìn)行分類(lèi)。
它以立檔單位內部的組織機構為標準,按不同的機構分別設置類(lèi)目。采用組織機構分類(lèi)方法應具備一定的條件:第一,立檔單位每年設立的內部組織機構應當基本穩定。
內部組織機構經(jīng)常調整變化的立檔單位,不宜采用這種方法。第二,立檔單位設立的各個(gè)內部組織機構應當能夠反映該單位的職能分工情況,并且每個(gè)組織機構具有較穩定的基本工作任務(wù)或職責,其工作活動(dòng)的內容及過(guò)程應同該機構承擔的相關(guān)職能保持一致。
第三,立檔單位的文件上應有各組織機構在形成及承辦文件時(shí)留下的標記,如收文章、發(fā)文號等。組織機構分類(lèi)法的類(lèi)別設置,一般是以立檔單位內第一層組織機構分類(lèi),需要時(shí)也可以分到第二層組織機構,往往有一個(gè)機構就設一個(gè)類(lèi)。
如果一個(gè)單位的機構包括辦公室、人事部、財會(huì )部、組織部、宣傳部等,采用組織機構分類(lèi)法就可將檔案分為辦公室類(lèi)、人事部類(lèi)、財會(huì )部類(lèi)、組織部類(lèi)、宣傳部類(lèi)等。各類(lèi)的排列次序一般按習慣或正式文件的規定,把領(lǐng)導機構、綜合機構排在前面。
3 問(wèn)題分類(lèi)法 就是按照文件內容所反映的問(wèn)題或“事由”將文書(shū)檔案劃分成各個(gè)類(lèi)別。它以文件的內容為標準,按文件所涉及的問(wèn)題(事由)分類(lèi)。
如一個(gè)全宗內的檔案可以按人事、計劃、生產(chǎn)、銷(xiāo)售等類(lèi)別分類(lèi),銷(xiāo)售類(lèi)內的檔案還可以按廣告宣傳、推銷(xiāo)、運輸、售后服務(wù)等進(jìn)一步分類(lèi)。這種分類(lèi)方法要求問(wèn)題的概括應當準確并且范圍明確,各個(gè)同級類(lèi)目應當互相排斥,并按文件的主要內容進(jìn)行歸類(lèi)。
因此,相對而言,這種分類(lèi)方法要求檔案人員具有較高的業(yè)務(wù)水平。為確保每份文件都能正確歸類(lèi),使用問(wèn)題分類(lèi)法時(shí)應注意以下。
用電腦對文本集(或其他實(shí)體或物件)按照一定的分類(lèi)體系或標準進(jìn)行自動(dòng)分類(lèi)標記 基於分類(lèi)體系的自動(dòng)分類(lèi) 基於資訊過(guò)濾和用戶(hù)興趣(Profiles)的自動(dòng)分類(lèi) 基於分類(lèi)體系的自動(dòng)分類(lèi) 所謂分類(lèi)體系就是針對詞的統計來(lái)分類(lèi) 關(guān)鍵字分類(lèi),現在的全文檢索 詞的正確切分不易分辨(白癡造句法) 基於資訊過(guò)濾和用戶(hù)興趣的自動(dòng)分類(lèi) 學(xué)習人類(lèi)對文本分類(lèi)的知識和策略 從人對文本和類(lèi)別之間相關(guān)性判斷來(lái)學(xué)習文件用字和標記類(lèi)別之間的關(guān)聯(lián) 請參考: n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf) n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf) n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf) n 蘇金樹(shù)、張博鋒、徐 昕,基于機器學(xué)習的文本分類(lèi)技術(shù)研究進(jìn)展 軟件學(xué)報 17(9): 1848-1859, 2006.9 (.pdf) n 基于統計學(xué)習理論的支持向量機算法研究 。
文本分類(lèi)一般包括了文本的表達、分類(lèi)器的選擇與訓練、分類(lèi)結果的評價(jià)與反饋等過(guò)程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟。文本分類(lèi)系統的總體功能模塊為:
(1) 預處理:將原始語(yǔ)料格式化為同一格式,便于后續的統一處理;
(2) 索引:將文檔分解為基本處理單元,同時(shí)降低后續處理的開(kāi)銷(xiāo);
(3) 統計:詞頻統計,項(單詞、概念)與分類(lèi)的相關(guān)概率;
(4) 特征抽取:從文檔中抽取出反映文檔主題的特征;
(5)分類(lèi)器:分類(lèi)器的訓練;
(6) 評價(jià):分類(lèi)器的測試結果分析。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.444秒