- 相關推薦
檔案文獻主題探測方法
檔案文獻主題探測方法
[摘 要]本文主題探測是以檔案類文獻作為文本集,以文本數據挖掘(Text Mining)的方式來對文本集進行處理。文章主要對文本分類和文本聚類的常用方法做了簡單的概括,并提出了基于主題模型的檔案文獻主題探測方法。
[關鍵詞]檔案文獻;主題探測;主題模型
引言
隨著目前科技文獻資源的大量增長,檔案類文獻的資源也在突飛猛進的增長,但對于大量的文獻資源,要能更精確的找到我們所需要的信息卻變得難上加難。主題探測(Topic Detection,作為一項旨在幫助人們應對信息過載問題的研究,其研究目標是要實現按主題查找、組織和利用來自多種媒體的多語言信息[1]。
1.常用的文本分類方法
傳統的科技文獻分類方法都是基于文本分類的,這些方法是對給定的文本,根據其內容自動或手動地加上一個類別標簽,通過給定的訓練集,用某種方法構建文本特征與文本類別之間的關系模型,再利用這個關系模型對新的未知類別文本進行類別訓練。
1.1基于簡單向量距離的分類法
簡單向量距離分類法的主要思想,是首先確定新文本的向量,然后根據尚未分類的文本向量與每個類別中心向量的距離來判斷此文本屬于哪個類別,確定新文本向量的前提是:先根據算術平均為每類文本集生成一個代表該類的中心向量[2]。
簡單距離向量分類法實現簡單,分類的復雜度也不高,其缺點也很明顯:直接使用特征空間的特征分布,受訓練文本中的噪聲影響較大,同時對分布不規則的數據,能夠取得的效果是很有限的。
1.2 K近鄰法(K-Nearest Neighbor)
KNN最初由Cover和Hart于1968年提出,是一個理論上比較成熟的方法,其分類方式是通過查詢已知類別文本的情況,來判斷新文本與已知文本是否屬于同一類。算法的基本思想是:首先給定新文本,然后在訓練文本集中找出與新文本距離最近的文本,依據找出的最近距離文本的類別,來判定新文本所屬的類別。
KNN方法相對簡單,易于實現,用于基于統計的模式識別中非常有效,并且對于未知和非正態的分布能夠取得比較高的分類準確率。但對于樣本分布依賴性較大,當樣本分布不均勻時,可能造成一定的偏向性。
1.3 貝葉斯分類法
貝葉斯分類方法在使誤判率或風險最小的問題上是很有意義的。它是將研究對象的先驗概率來作為輔助判斷,這樣做可以使結論更精確的得到分析。但由于貝葉斯分類器的前提是需要已知條件概率,而且它的決策面比較復雜,因此在計算和構造方面是相對困難的[26]。
貝葉斯分類的優點在于算法邏輯簡單,易于實現,并且算法穩定。但其也有缺陷,就是在其獨立性假設時,在許多實際中并不能夠成立,這樣會引起分類的誤差。
1.4 支持向量機(SVM)
支持向量機(Support Vector Machine,SVM)是統計學概念上一個有監督的學習方法,在解決小樣本、非線性及高維模式識別問題中表現出特有的優勢。這種方法是針對線性可分情況進行分析,通過尋找最優線性分類面來減小對新文檔的誤分概率[3]。
2.常用的文本聚類方法
作為一種無監督的機器學習方法,文本聚類是在給定的某種相似性度量下,把對象集合進行分組,使得相似的對象能夠分到同一個組內。其方法通常是利用向量空間模型,將文本轉換成高維空間中的向量,然后對這些向量進行聚類。因此,影響文本聚類結果的因素除了文檔聚類算法的選擇外,還包括語義問題和降維問題。
2.1基于劃分的方法
劃分法(Partitioning Method)也稱分裂法,其基本原理是:首先得到初始的k個劃分,然后通過迭代,將文檔從一個中間類轉移到另一個類中,以改進聚類的質量。代表性算法有K-means算法、k-中心點、CLARA、CLARANS等。
2.2基于層次的方法
層次法(Hierarchical Methods)首先假設所有文檔自成一類,然后將最相似的兩類合并,重復此過程,直到最后將所有文檔合并為一類,因而可以形成一顆聚類樹。層次法分為凝聚層次聚類和劃分層次聚類兩種,而劃分層次聚類用的比較少。
典型的層次聚類方法包括:CURE(Clustering Using REprisent-
atives)方法、ROCK方法、Chameleon、BIRCH(Balances Iterative Reducing and Clustering using Hierarchies)方法等。
2.3基于模型的方法
基于模型的方法(Model-based methods)是從文本集合中學習一個模型,每個模型代表一個文本類,并優化給定的數據和數學模型之間的適應性。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。典型的基于模型的方法有:統計方法COBWEB和CLASSIT。
2.4基于網格的方法
基于網格的算法(Grid-based methods)首先將數據空間劃分成為有限個單元的網格結構(所有的處理都是以單個的單元為對象的),然后利用網格結構完成聚類。其優點是處理速度比較快,通常與目標數據庫中記錄的個數無關,只與將數據空間所分的單元數量有關。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(Clustering In QUEst)算法、WAVE-CLUSTER算法。
2.5基于密度的方法
為了發現任意形狀的聚類結果,提出了基于密度的方法(Density-based methods)。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。只要一個區域中點的密度大于某個閥值,就將其加到與之相近的聚類中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
3.基于主題模型的檔案文獻主題探測研究方法
基于主題模型的檔案文獻主題探測,初步提出了將LDA主題模型運用到檔案主題探測中。
使用LDA主題模型,旨在更好的獲取文本的主題。主題模型采用了概率分析的方法,和以往其他模型的統計方法有著很大的不同。而LDA是服從于Dirichlet分布的概率模型,使得文本、主題、單詞在模型超參數上有了不同的發生概率,LDA主題模型的提出,使文本不再局限于與主題一一對應,并且給出了文本在各個主題上的概率分布。
4.結束語
文本數據挖掘方法一直是數據挖掘工作人員不斷探索的重要內容,而主題探測能夠很好的幫助我們解決“信息過載”的現象。本文概述了文本挖掘的常用方法,并提出了最新主題模型LDA,將其運用到檔案文獻主題探測中,目前正對其方法做進一步的測試,將其與常用的文本分類或文本聚類方法做比較。
參考文獻:
[1]李保利,俞士汶. 話題識別與跟蹤研究[J]. 計算機工程與應用. 2003(17): 7-10.
[2]龐劍峰,基于向量空間模型的自反饋的文本分類系統的研究與實現[D].中科院計算所碩士論文.2001.
[3]T. Joachims. Text categorization with support Vector machines: Learning with many relevant features[C]. Lecture Notes in Computer Science,1998,(1398):137-142.
【檔案文獻主題探測方法】相關文章:
關于法律自考論文參考文獻的查找方法10-09
碩士論文參考文獻標注方法大全10-03
檔案管理體制相關文獻統計研究論文10-08
文書檔案的整理與保管方法的創新10-05
檔案信息化建設與檔案管理方法論文10-12
國際檔案日主題征文07-10
學習方法主題班會06-14
電子信息檔案管理的風險控制方法10-26
加強醫院檔案管理建設的方法探究論文10-12
火災探測器清洗合同09-10