短文本聚類算法
大?。?/span>0.78 MB 人氣: 2017-11-17 需要積分:0
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
標(biāo)簽:聚類算法(12092)
針對(duì)短文本特征極度稀疏、上下文依賴性強(qiáng)等特點(diǎn),以自頂向下的策略,提出一種基于核心詞項(xiàng)平均劃分相似度的短文本聚類算法CTMPS。該方法首先在整個(gè)短文本語料庫中計(jì)算詞項(xiàng)之間的概率相關(guān)性,以此為基礎(chǔ)對(duì)短文本中詞項(xiàng)進(jìn)行加權(quán),將權(quán)值較大的詞項(xiàng)作為最能代表該短文本的核心詞項(xiàng)形成核心詞項(xiàng)集;以信息論為基礎(chǔ),將核心詞項(xiàng)作為劃分依據(jù)計(jì)算平均劃分相似度,選擇平均劃分相似度值最大包含該核心詞項(xiàng)的短文本形成一類,用此策略反復(fù)迭代直到滿足要求。最后,實(shí)驗(yàn)結(jié)果表明,本文提出的方法顯著地提高了短文本聚類的性能。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%