輿情去重算法的研究
大小:0.69 MB 人氣: 2017-11-03 需要積分:0
標簽:輿情(1561)
近年來,輿情信息在大數據服務中廣泛被加工使用,但轉載、復制等操作使得采集的輿情信息重復量龐大,給后期的加工帶來困難。在這種情況下,針對輿情數據開展去重研究的卻相對較少。文中針對輿情去重不可避免但缺乏理論指導的問題,通過研究SimHash、MinHash、Jaccard等經典去重算法,結合TF、TF-IDF、特征碼等不同特征選擇和3 000輿情樣本進行實驗,最終發(fā)現MinHash+特征碼運行時間最短;Jaccard的漏判數最少,召回率可達90%以上;MinHash算法的誤判數最少,去重精度可達100%,并且MinHash通過閾值的調整能夠獲得Jaccard同樣的召回率。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
輿情去重算法的研究下載
相關電子資料下載
- 云手機的境外輿情監(jiān)控應用——助力品牌公關 257
- 用云手機進行輿情監(jiān)測有什么作用? 243
- 輿情星榜 | 人工智能行業(yè)輿情觀察(2022 年 12 月) 793
- 輿情監(jiān)控系統可確保輿情管控工作高效穩(wěn)定的進行 1926
- 大數據環(huán)境下,輿情研究方法存在哪些問題?如何迭代? 1571
- 人工智能時代政法網絡輿情治理可以調整哪一些對策 1470
- 人民網輿情:公眾對網約車或存偏見 2694
- 智慧公安全網輿情監(jiān)控平臺搭建情報分析系統開發(fā) 446
- 智慧公安重點人員管控系統開發(fā)全網輿情監(jiān)控系統搭建 455
- 樸素貝葉斯分類算法并實現中文數據集的輿情分析案例 9549