基于Document Triage的TF-IDF算法
大?。?/span>0.93 MB 人氣: 2017-12-27 需要積分:2
標(biāo)簽:
針對TF-IDF算法在加權(quán)時沒有考慮特征詞本身在文檔中重要度的問題,提出利用用戶閱讀時的閱讀行為來改進(jìn)TF-IDF。將Document Triage引入到TF-IDF中,利用IPM收集用戶閱讀中行為的相關(guān)信息,計算文檔評分。由于用戶的標(biāo)注內(nèi)容往往是文章的重要內(nèi)容,或者反映了用戶的興趣。因此,賦予用戶標(biāo)注詞項更大的權(quán)重,將文檔評分和用戶的標(biāo)注信息等作為因子引入到TF-IDF中,設(shè)計出改進(jìn)的加權(quán)算法DT-TF-IDF。實驗結(jié)果表明,相對傳統(tǒng)TF-IDF算法,DT-TF-IDF的查全率、查準(zhǔn)率,以及查準(zhǔn)率和查全率的調(diào)和均值都有了一定的提高。DT-TF-IDF算法比傳統(tǒng)TF-IDF算法更加有效,提高了文本相似度計算的準(zhǔn)確性。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%