国产欧美日韩在线观看一区二区,欧美乱码精品一区二区三区,国产粉嫩高中无套进入,中文在线天堂网www

論文范文

基于SVM的重復網頁檢測算法分析論文

時間:2022-10-11 04:18:13 論文范文 我要投稿
  • 相關推薦

基于SVM的重復網頁檢測算法分析論文

  引言

基于SVM的重復網頁檢測算法分析論文

  隨著互聯網的發展,網絡上的文本信息越來越容易復制,由此產生了大量的重復網頁和鏡像文檔,這一方面增加了網絡爬蟲的負擔,另一方面降低了用戶體驗。因此,越來越多的學者關注重復網頁檢測這一領域。

  對于重復網頁可以定義為內容完全重復和近似重復,對于完全重復的網頁可以計算其MD5值,通過比較網頁問MD5值是否相等即可作出判斷。因此,本文只討論近似重復網頁的檢測。大量重復網頁的產生基本上是通過用戶轉載,如一些新聞文章、熱門事件及經典文章等,也就是說一般重復網頁改動比較小,如加入引文信息、插入廣告導航等。

  本文把相似網頁的比較轉換成二元分類問題,即兩張網頁相似標記為+1(相似),否則標記為-1(小相似)。SVM(Support Vector Machine)算法在文本分類中取得了較好的效果。因此,本文采用SVM算法對每對網頁分類,通過訓練數據的學習得到分類判別函數,由判別函數對新的數據進行計算。

  1相關研究

  目前,對重復網頁檢測問題已經提出了很多解決方案:有基于字符串比較的方法,即按小同粒度提取指紋,有基于詞頻統計的方法,還有基于聚類的方法等。

  Border提出將文本中連續的n個term序列作為文本的一個特征,稱之為二shingleo M-Theobald等人提出的SpotSig算法,以停用詞作為先行詞,提取其后的k個詞形成一個個特征,使用Jaccard計算相似度。

  哈工大張剛等人把句號作為一個提取位置,分別在句號兩邊L/2長的詞串構成網頁的一個特征。清華大學吳平博等人提取每個句子中首尾字符作為特征串。彭淵等人提出將兩篇文檔的最長公共子序列(LCS)作為特征碼。

  2算法實現過程

  2. 1特征碼提取

  網頁通常由以下幾部分組成:標題、正文內容、鏈接和廣告等。正文是原始網頁中真正描述主題的部分。本文采用通用網頁正文抽取算法州提取網頁的正文內容,網頁中其余部分當作噪音過濾掉。

  從長段落中提取特征碼,可以減少一些次要特征,使計算更簡潔。長段落定義:段落的長度要大于設定的閾值或以句號、問號、感嘆號分割得到的句子數大于設定的閾值。

  提取出長段落后,以逗號、句號、感嘆號和問號分割得到每個句子,提取每個句子首尾各L/2個字作為特征碼;把各個特征碼按序組成特征串,該特征串代表了該篇文檔。

  2. 2相似度計算

  在比較特征串差異性的基礎上得到網頁的相似度。目前,比較文本之問差異算法主要有兩大類:一類是基于最短編輯距離算法;一類是基于最長公共子串算法。最短編輯距離算法是以字符串八變成另一個字符串B的過程中,通過插入字符、刪除字符、替換字符等操作的次數表示兩個字符串的差異,數值越小字符串的差異越小算法表示字符串八和字符串B的最長公共子串長度,數值越大字符串的差異越小。

  通用的做法是根據以上計算出的相似度數值,作一些規范化處理后與閾值比較。但是在現實中閾值的設定往往是依靠經驗來設置的,因此很難設定準確,這樣就有誤差。本文采用了監督學習算法,通過學習得到的判別函數來判斷文檔是否相似,避免了人為設定閾值帶來的風險。

  2. 3支持向量機(SVM )

  2. 3. 1 SVM簡介

  支持向量機是一種二元分類模型,它的基本模型是定義在特征空間上的問隔最大的線性分類器。在重復網頁檢測應用中,我們把每對網頁中計算出的特征定義如過程中,通過插入字符、刪除字符、替換字符等操作的次數表示兩個字符串的差異,數值越小字符串的差異越小算法表示字符串八和字符串B的最長公共子串長度,數值越大字符串的差異越小。

  通用的做法是根據以上計算出的相似度數值,作一些規范化處理后與閾值比較。但是在現實中閾值的設定往往是依靠經驗來設置的,因此很難設定準確,這樣就有誤差。本文采用了監督學習算法,通過學習得到的判別函數來判斷文檔是否相似,避免了人為設定閾值帶來的風險。

  2. 3. 2操作流程

  SVM在重復網頁檢測應用中的大致流程,主要分為訓練階段和測試階段。訓練階段主要從預先給定的數據集中學習并建立分類器,得到判別函數。因此,訓練數據的好壞對于分類器的性能至關重要。測試階段用來分類未知結果的數據集,可以判斷出文檔集中與輸入文檔重復的文檔,即把文檔集中每個文檔與輸入的文檔使用判別函數計算

  2. 4算法描述

  本文算法大致分為3大步:提取特征串、衡量指標和構造分類器。

  3結語

  本文提出一種使用機器學習的方法檢測網頁是否重復,通過訓練數據構造SVM分類器。提取網頁特征串,計算兩個特征串的相似度,使用SVM判別函數計算。實驗表明:加入兩個網頁間的長度差異值能提高算法的準確率和查全率。

【基于SVM的重復網頁檢測算法分析論文】相關文章:

畢業格式修改論文重復率改10-26

本科論文查重檢測-查重論文檢測本科10-26

基于SWOT分析的泰安市旅游資源分析10-26

案例分析論文11-07

基于檔案的社會作用管理論文10-13

職稱論文檢測系統10-26

基于霍爾傳感器的機油壓力檢測裝置10-26

基于因子分析的甘肅投資環境評價10-26

淺談基于戰略管理的我國證券監管分析10-26

基于領域的名詞短語語義分析及其實現10-26

主站蜘蛛池模板: 女人裸体性做爰视频| 中文字幕美人妻亅u乚一596| 男人j放进女人p全黄动态图| 老少配老妇老熟女中文普通话| 99久久国产自偷自偷免费一区| 色婷婷国产精品秘?免| 欧美丰满熟妇xxxx性大屁股| 草草影院ccyy国产日本欧美| 夜夜澡天天碰人人爱av| 国产欧美日韩一区二区三区在线| 国产av永久无码青青草原| 亚洲国产成人精品无码区99| 一本一本久久a久久精品综合| 夜夜爽一区二区三区精品| 欧美人与动牲交zooz男人| 成年女人午夜毛片免费视频| 亚洲欧美日本韩国| 国产精品96久久久久久| 亚洲综合网站精品一区二区| 日本中文字幕一区二区高清在线| 又粗又硬又黄又爽的免费视频| 日韩av午夜在线观看| 国产成人成网站在线播放青青| 中文字幕乱码熟妇五十中出| 国产成人亚洲综合无码99| 欧美日韩中文国产一区发布| 99久久无色码中文字幕人妻| 无码专区—va亚洲v专区| 色六月婷婷亚洲婷婷六月| 无码人妻一区二区无费| 狠狠亚洲婷婷综合色香五月| 国产怡春院无码一区二区| 无码少妇一区二区三区| 亚洲av综合色区无码一区爱av| 欧美精品1卡二卡三卡四卡| 真人做人试看60分钟免费视频| 日本久久久久久级做爰片| 好男人在线社区www在线观看视频| 日韩内射激情视频在线播放免费| 亚洲一区二区三区中文字幂| 三男一女吃奶添下面|