分詞的方法有哪些呢?

 SEO基礎知識     |      2020年07月22日

分詞是中文搜索引擎所特有的處理操作,這是因為英文等語言的單詞與單詞之間是有空格分隔的,而中文的詞與詞之間就沒有任何的分隔符,所以搜索引擎必須要把一句話分解成很多個詞語。

分詞的方法有哪些呢?

分詞的方法有很多,主要有基于字典的分詞法、基于理解的分詞法以及基于統計的分詞法,目前主流的搜索引擎會結合這三種方法,構成一套分詞系統。接下來就詳細的了解一下這三種方法吧!


1、基于字典的分詞法


這種分詞法是指將待分析的一段文字與一個事先編制好的字典中的詞條進行匹配,在待分析文字中掃描到字典中已有的詞條則匹配成功,或者切分出一個單詞。這種分詞方法的準確性在很大程度上取決于字典的完整性。


這種分析法在進行分詞的時候,應該遵循顆粒度越大越好、非字典詞越少越好,單字詞越少越好、總體詞數越少越好的原則。


2、基于理解的分詞法


這種分詞方法主要是利用人工智能技術,并且結合漢語的語法、詞義以及心理學的知識讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。


它通常包括三個部分:分詞子系統、句法語義子系統以及總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等句法和語義信息來對分詞歧義進行判斷,從而模擬了人對句子的理解過程。


這種分詞法需要使用大量的語言知識和信息,由于漢語語言知識的店籠統、復雜性,將各種語言信息組織成機器可直接讀取的形式比較困難,因此這種分詞法還處于測試階段。


3、基于統計的分詞法


這種分析法是指搜索引擎對大量的頁面內容進行分析,計算出字與字之間相鄰出現的概率,如果某幾個字相鄰出現的概率很大,這樣就有可能形成一個單詞。這種分詞的優勢就在于對新出現的詞反應更加快速。


以上就是分詞法的常用方法,希望對大家有所幫助。


原創·大金SEO http://www.nxndz.com/p/563.html