- 相關推薦
論述規則和統計相結合的句法分析一致性檢驗論文
句法分析就是對詞語的語法功能和句子的結構進行分析。句法分析的研究方向通常是依據一個大規模的句法分析樹庫,通過分析研究,建立統計模型。如果句法樹庫的準確率不高,將會降低句法樹庫模型的學習效果,進而影響自動標注句法分析結果的質量。目前出現的漢語句法分析自動標注的模型較多,但是完全句法分析自動標注的準確率不是太理想,為了構建高質量的大規模樹庫,需要投入大量的人工和時間。通過遍歷完全句法分析樹庫發現,人工標注結果存在的不一致現象非常普遍。為了提高句法樹庫質量,本文采用的方法是通過分析標注錯誤的現象,編寫規則和建立統計模型,自動查找標注錯誤的地方,對于單個標注錯誤的地方自動修正。
國外許多研究者在建立句法分析模型方面做出了很多探索。斯坦福大學的Roger Levy等人提出了分析漢語語料的困難,他們通過分析漢語語料庫發現,一些類型的標注錯誤是由于漢語語法內在的歧義引起的。有些錯誤是標注經驗導致的。通過最大似然估計PCFG特征模型,能夠提高句法分析的準確率。針對漢語樹庫完全句法分析一致性檢驗的研究,目前國內不是太多,較多的是關于句法分析自動標注的解決方法。詹衛東等人分析句法格式,總結了很多句法結構歧義類型,分析特征,并通過檢查樹庫統計了典型類型的數量。魏莉等人分析完全句法分析語料庫,探索分詞標注、詞性標注和句法結構標注三個方面的錯誤現象,發現并修正。這些研究方法對于句法分析一致性檢驗有很好的借鑒作用。
本文采用的方法是選擇完全句法分析樹庫的部分語料進行研究,分析標注錯誤的現象,從單個句法分析標記不一致和句法分析層次結構標注不一致的現象中學習,使用基于規則和統計相結合的方法檢查發現不一致問題,并通過人工或機器自動修正。
一、完全句法分析不一致現象
遍歷完全句法樹庫,通過分析發現,可以總結為兩種類型的不一致現象,一種是單個的句法標記,另一種是句法結構標注。完全句法分析樹庫中的標注一般有兩類,功能標記和結構標記。功能標注主要是分析句法成分的組合關系。結構標記主要是體現句子的語義關系。
引起人工標注的完全句法分析語料庫不一致現象的原因有很多,包括標注者對標記的理解程度,標注經驗,以及標注的專注程度。由于參與構建大規模句法樹庫的人員眾多,理解方式的不一致很容易引起標注不一致。不同標注者可能發生標注不一致,同一標注者可能標注前后不一致。因此很有必要通過機器進行檢查,修正這些現象,提高完全句法樹庫的準確率。
(一)單個句法分析標記標注不一致
對于人工標注的標記符號錯誤的地方,可以直接設計算法,抽取所有標記一一和標記庫進行對比。完全句法分析樹庫的兩種標記功能標記和結構標記都有可能出現標注不一致現象。通過遍歷樹庫發現不一致,并進行分析。
由于漢語中有很多兼類詞,因此會出現同一詞匯標注的詞性不一樣,進而功能標記和結構標記都會發生變化。例如短語“臨出發”“陸”是一個兼類詞。臨這個字在語料中出現了標注不一致現象,一種標注為動詞,相應為述賓結構,動詞性短語;另一種標注為介詞,相應為介賓結構,介詞短語。按照漢語語法“陸”放置在動詞“出發”前,應該理解為做介詞用。因此正確的標注應該是介詞,介賓結構,介詞短語。可見,兼類詞是檢查的重點,詞性標注錯誤可能會導致功能標記和結構標記標注錯誤。
(二)句法分析結構標注不一致
完全句法分析與淺層句法分析不同,分析標注的是整個句子的結構關系。各個詞語之間的層次關系可能會出現組合順序的不一致。特別是嵌套的句法結構,很容易有歧義。
例如短語“喜歡說話的女孩”。可以有兩種理解。一種是描述一個女孩她喜歡說話,理解為“喜歡說話”是用來修飾“女孩”的,此短語整體看是定中結構。另一種可能是某人喜歡的是說話的女孩,而不是沒說話的女孩,僅“說話”這個詞修飾“女孩”,此短語整體看述賓結構。
可見,不同的理解句法分析標注的結構會出現不一致的現象。這就需要根據上下文語境,判斷應該是哪種標注結果。
二、完全句法分析一致性檢驗策略
完全句法分析一致性檢驗的目的是發現不一致現象,并修正錯誤的句法分析標注。引起不一致的原因是多元的,但是可以歸結為以上兩種,通過分析這些錯誤標注的不一致現象,我們發現需要選用不同的檢查方式來處理。
(一)基于錯誤驅動的單個標記不一致校驗
針對單個句法分析標注不一致的問題,可以使用基于錯誤驅動的方法來發現不一致現象并修正。錯誤驅動的方法是指分析提取錯誤標注的特征,編寫相應的轉換規則,使用規則去檢查整個語料,自動發現錯誤標注現象,并進行修正。單個句法分析標注的問題是結構標記和功能標記標注不同引起的。修改單個句法分析標注并不影響句法結構層次的變化,可以使用句法標記規則統一修改。
具體的操作步驟可以通過一個例子進行觀察。例如“陸出發”這個短語,他是介詞加動詞的結構,檢查上述結構類型的句法和功能標記的標注問題。當遍歷句法分析樹庫時,如果發現有標錯的現象,即介詞加動詞的結構,但沒有被標注成介詞短語,介賓結構,就可以針對錯誤的標記,通過錯誤轉化方法,使用規則檢查并修改成正確的標記。用這個規則去檢查其他的標注錯誤現象并自動修正。此方法可以歸納為三個步驟:找到錯誤,編寫規則和修正錯誤。
(二)句法分析結構標注不一致校驗策略
完全句法分析剖析的是整個句子的結構。僅僅基于規則的句法標注檢查是不可靠的,基于大規模語料的統計的方法更為有效。張浩等人也是通過分析語境,選用中心詞作為切入點,建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周強等人也提出通過分析句法結構中組合的先后次序,使用概論統計模型來判斷句法分析標注結果,使得句法分析的準確率得到提高。針對本文探索的問題,如何判斷句法分析標注的層次標注問題也是需要分析語境,根據句子的語義,詞語之間的關系,分析詞語是如何組成短語,短語是如何組成句子的。針對句子層次結構組合的不一致不可能通過規則的方法修正,但是可以通過建立統計概率模型,發現可能出現句法層次結構標注錯誤的地方,然后進行人工修正,這樣節省了時間和人力。
句法層次結構和句中詞語之間的緊密程度有關。句中的某一個詞語是先和左邊的詞語結合,還是先和右邊的詞語結合,這是一個二選其一的問題,除了句子的首個詞語和末尾詞語。我們通常認為,在語境相同的情況下應該有相同的結合順序。對于大規模完全句法樹庫,我們可以利用分類的方法,支持向量機(SVM)來解決。核函數可以選擇高斯核函數。
建立概率統計模型,需要選擇特征作為判斷的依據。完全句法分析樹庫的基層標注信息是分詞和詞性。Dan Klein等人提出了非詞匯的PCFG模型,取得的句法分析效果也較詞匯化模型更簡單。可見,詞語即詞的外部形態千變萬化,不容易把握規律。但是詞性的標記卻能反映詞語內在的功能,影響功能標注和語法標注的結果。針對句法分析中左右組合的問題,可以通過核心詞語及待判斷詞語它的詞性及其上下文詞性環境來做出統計,建立特征模型。
首先要界定語境的范圍,通過實驗發現選用前后四個詞語進行統計時,計算的空間和時間代價比較合適。然后遍歷完全句法分析樹庫,通過概論統計的方法,計算這些詞語的詞性和詞語轉移概率,這樣可以看出詞語間優先組合的頻率。訓練數據得到后,將核函數引入,通過參數的調節,尋找一個超平面將高維空間分割成兩半。用這個訓練得到的結果再去分析測試語料,就可以給出左右結合的判斷結果。如果樹庫語料的組合結果與概率模型的統計結果不一致,就需要人工進行判斷,進而修正標注。
三、結論
我們對10000句完全句法分析樹庫進行測試,實驗結果顯示,單個句法分析標注不一致的現象占到整個檢測結果的31%,句法分析結構標注不一致的現象占到69%。句法分析不一致檢查的準確率為87.6%,召回率為94.8%。
關于準確率的問題,通過分析發現主要是有兩方面原因。針對單個句法分析標注不一致的問題,使用的修正規則中有些是不適用的,有些問題不能一刀切。針對句法分析結構標注不一致的檢查,我建立的統計概率模型考慮的特征還不夠多,沒能真正反映左右組合的規律。需要進行深入反復的研究實驗。
召回率的結果反映出,單個句法分析標注和句法分析結構標注的問題確實是不一致現象的根源,通過錯誤驅動的方法和概率統計模型的方法能較好地完成檢查不一致的任務,對于單個句法標記的問題可以查找并自動修正,但是對于句法分析結構問題仍需要人工修正。
為了構建高質量的完全句法分析樹庫,進行句法分析的一致性檢查是一項必要的工作。如果樹庫存在大量的不一致現象,必然影響完全句法自動分析器的訓練效果。針對漢語的語言現象進行句法分析是一項較難的課題,由于漢語的語法形式豐富,語義多樣。如何提高句法分析的準確率,還需要進一步研究。
【論述規則和統計相結合的句法分析一致性檢驗論文】相關文章:
論述中國電子商務發展的環境和前景論文10-10
體育教學與藝術相結合思路論文10-10
市場營銷案例和嘗試教學相結合管理論文10-13
對建筑機械節能技術論述論文10-12
論述德育教育與小學體育教學的關系的論文10-11
檢驗畢業論文致謝10-26
醫學檢驗論文致謝內容10-26
古代文學視域下體育教育的論述論文10-13
建筑混凝土空心砌塊的施工工藝的論述論文10-10
對審計項目質量管理論述經濟論文10-12