99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集

深度學(xué)習(xí)自然語言處理 ? 來源:python遇見NLP ? 作者:python遇見NLP ? 2020-10-10 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在Github上搜索整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集:

1

中文評測數(shù)據(jù)集

1. Yidu-S4K:醫(yī)渡云結(jié)構(gòu)化4K數(shù)據(jù)集

2.瑞金醫(yī)院糖尿病數(shù)據(jù)集

3.Yidu-N7K:醫(yī)渡云標(biāo)準(zhǔn)化7K數(shù)據(jù)集

4.中文醫(yī)學(xué)問答數(shù)據(jù)集

5.平安醫(yī)療科技疾病問答遷移學(xué)習(xí)比賽

6.天池新冠肺炎問句匹配比賽

7.中文醫(yī)患問答對話數(shù)據(jù)

8.中文醫(yī)學(xué)問答數(shù)據(jù)

9.CHIP2020各項(xiàng)評測已開放

10.醫(yī)學(xué)數(shù)據(jù)挖掘與算法評測大賽

中文醫(yī)學(xué)知識圖譜

CMeKG

英文數(shù)據(jù)集

PubMedQA: A Dataset for Biomedical Research Question Answering

中文醫(yī)療領(lǐng)域語料

醫(yī)學(xué)教材 培訓(xùn)考試

哈工大《大詞林》開放75萬核心實(shí)體詞及相關(guān)概念、關(guān)系列表(包含中藥/醫(yī)院/生物 類別)

醫(yī)學(xué)embedding

開源英文醫(yī)學(xué)embedding

鏈接:https://github.com/lrs1353281004/Chinese_medical_NLP

2

醫(yī)療行業(yè)專業(yè)詞匯語料

說明 數(shù)量 文件
口腔科病歷詞匯 11,170 stomatology.txt
國際疾病分類ICD全庫 54,304 ICD.csv
疾病診斷編碼庫ICD-10 12109 ICD-code-10.csv
醫(yī)院固定資產(chǎn)詞匯 471 properties.txt
藥品名稱詞匯 37,308 medicine.txt
電子病歷常見詞匯 1985 emr.txt

鏈接:https://github.com/xtea/chinese_medical_words

3

中文醫(yī)學(xué)NLP公開資源整理:術(shù)語集/語料庫/詞向量/預(yù)訓(xùn)練模型/知識圖譜/命名實(shí)體識別/QA/信息抽取/etc

術(shù)語集/語料庫

medical-news中文醫(yī)學(xué)新聞爬蟲

medical-books中文LaTex開源醫(yī)學(xué)書籍

THUOCL清華大學(xué)thunlp組醫(yī)學(xué)詞匯

ICD-10-CNICD-10中文對應(yīng)

OMAHA七巧板醫(yī)學(xué)術(shù)語集樣例數(shù)據(jù)

中文糖尿病標(biāo)注數(shù)據(jù)集包含實(shí)體標(biāo)注和關(guān)系標(biāo)注

詞向量/預(yù)訓(xùn)練模型

ChineseEHRBert 中文電子病歷預(yù)訓(xùn)練Bert;用Bert測試命名實(shí)體識別,問答模型,關(guān)系提取任務(wù)

分詞

PKUSEGPKUSEG分詞工具,模型支持選擇醫(yī)學(xué)

知識圖譜 / 關(guān)系提取

cMeKGChinese Medical Knowledge Graph

瑞金醫(yī)院人工智能輔助構(gòu)建知識圖譜大賽糖尿病相關(guān)的學(xué)術(shù)論文以及糖尿病臨床指南的實(shí)體標(biāo)注和抽取實(shí)體關(guān)系任務(wù)

OMAHA知識圖譜(藥品適應(yīng)癥)開放醫(yī)療與健康聯(lián)盟(Open Medical and Healthcare Alliance,OMAHA)構(gòu)建的藥品與藥品適應(yīng)證的知識圖譜數(shù)據(jù)

醫(yī)療知識圖譜數(shù)據(jù)醫(yī)療知識圖譜數(shù)據(jù)(ownthink)

病人事件圖譜數(shù)據(jù)集病人事件圖譜是一種新的基于RDF的醫(yī)療觀察性數(shù)據(jù)表示模型,可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時序關(guān)系。使用三家上海三甲醫(yī)院的電子病歷數(shù)據(jù),構(gòu)建了包括3個???、173395個醫(yī)療事件、501335個事件時序關(guān)系以及與5313個知識庫概念鏈接的醫(yī)療數(shù)據(jù)集。

中文癥狀庫這是一個包含癥狀實(shí)體和癥狀相關(guān)三元組的數(shù)據(jù)集。中文癥狀庫的數(shù)據(jù)來自8個主流的健康咨詢網(wǎng)站、3個中文百科網(wǎng)站和電子病歷。它還包含了中文癥狀與UMLS中概念的鏈接結(jié)果。

中醫(yī)醫(yī)案知識圖譜從醫(yī)案中抽取臨床知識構(gòu)建知識圖譜,幫助用戶了解中醫(yī)特色療法,以及疾?。ㄈ纭奥晕秆住保┑呐R床表現(xiàn)、相關(guān)療法、相關(guān)養(yǎng)生保健方法等

herbnet 面向中藥研究,根據(jù)中藥領(lǐng)域模型的特點(diǎn),構(gòu)建了一個包括中醫(yī)疾病,方劑,中藥, 中藥化學(xué)成分,藥理作用,中藥實(shí)驗(yàn),化學(xué)實(shí)驗(yàn)方法在內(nèi)的中藥本體。進(jìn)而,基于本體實(shí)現(xiàn)了一系列數(shù)據(jù)庫的集成,從而構(gòu)建了一個中藥知識圖譜。

CHIP2020中文醫(yī)學(xué)文本實(shí)體關(guān)系抽取

命名實(shí)體識別

CCKS2017面向中文電子病歷的醫(yī)療實(shí)體識別及屬性抽取數(shù)據(jù)集

CCKS2018面向中文電子病歷的醫(yī)療實(shí)體識別及屬性抽取數(shù)據(jù)集

CCKS2019數(shù)據(jù)下載面向中文電子病歷的醫(yī)療實(shí)體識別及屬性抽取數(shù)據(jù)集

CHIP2020中文醫(yī)學(xué)文本命名實(shí)體識別

CHIP2020中藥說明書實(shí)體識別

QA

CCIR2019CCIR 2019 基于電子病歷的數(shù)據(jù)查詢類問答

cMedQA中文醫(yī)學(xué)QA數(shù)據(jù)集

cMedQA2中文醫(yī)學(xué)QA數(shù)據(jù)集

CMID中文醫(yī)學(xué)QA意圖理解數(shù)據(jù)集

KGQA基于醫(yī)藥知識圖譜的智能問答系統(tǒng)

chatbot-base-on-Knowledge-Graph使用深度學(xué)習(xí)方法解析問題 知識圖譜存儲 查詢知識點(diǎn) 基于醫(yī)療垂直領(lǐng)域的對話系統(tǒng)

中文醫(yī)療對話數(shù)據(jù)集Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集

webMedQAwebMedQA

MedDialogThe MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

CHIP2020中醫(yī)文獻(xiàn)問題生成

術(shù)語標(biāo)準(zhǔn)化

CHIP2019臨床術(shù)語標(biāo)準(zhǔn)化任務(wù):醫(yī)渡云標(biāo)準(zhǔn)化7K數(shù)據(jù)集

CHIP2020臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)

相似句對判斷

“公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對判定大賽比賽整理近萬條真實(shí)語境下疫情相關(guān)的肺炎、支原體肺炎、支氣管炎、上呼吸道感染、肺結(jié)核、哮喘、胸膜炎、肺氣腫、感冒、咳血等患者提問句對,要求選手通過自然語言處理技術(shù)識別相似的患者問題。

其他

CHIP2018針對中文的真實(shí)患者健康咨詢語料,進(jìn)行問句意圖匹配

CHIP2019平安醫(yī)療科技疾病問答遷移學(xué)習(xí)比賽

鏈接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP

4

Data_數(shù)據(jù)中有6個文件夾分別是:

94596個問答對220606個問答對183751個問答對75553個問答對101602個問答對115991個問答對 總計(jì) 792099個問答對

每個文件夾下有一個csv文件,其中的數(shù)據(jù)格式為:

department title ask answer
心血管科 高血壓患者能吃黨參嗎? 我有高血壓這兩天女婿來的時候給我拿了些黨參泡水喝,您好高血壓可以吃黨參嗎? 高血壓病人可以口服黨參的。黨參有降血脂,降血壓的作用,可以徹底消除血液中的垃圾,從而對冠心病以及心血管疾病的患者都有一定的穩(wěn)定預(yù)防工作作用,因此平時口服黨參能遠(yuǎn)離三高的危害。另外黨參除了益氣養(yǎng)血,降低中樞神經(jīng)作用,調(diào)整消化系統(tǒng)功能,健脾補(bǔ)肺的功能。感謝您的進(jìn)行咨詢,期望我的解釋對你有所幫助。
消化科 哪家醫(yī)院能治胃反流 燒心,打隔,咳嗽低燒,以有4年多 建議你用奧美拉唑同時,加用嗎丁啉或莫沙必利或援生力維,另外還可以加用達(dá)喜片

鏈接:https://github.com/Toyhom/Chinese-medical-dialogue-data

5

This dataset is used for Chinese medical QA intent understanding task.

Dataset format:

All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

{ "originalText": "間質(zhì)性肺炎的癥狀?", "entities": [{"label_type": "疾病和診斷", "start_pos": 0, "end_pos": 5}], "seg_result": ["間質(zhì)性肺炎", "的", "癥狀", "?"], "label_4class": ["病癥"], "label_36class": ["臨床表現(xiàn)"] }

鏈接:https://github.com/liutongyang/CMID

6

This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.

鏈接:https://github.com/zhangsheng93/cMedQA

7

COVID19 Language Resources: Datasets

鏈接:https://github.com/lwgkzl/Covid19-NLP

8

Datasets

BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V athttps://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online athttp://arnetminer.org/TCMRelExtr.

The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available athttp://i2b2.org/NLP/DataSets.

鏈接:https://github.com/chentao1999/MedicalRelationExtraction

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 醫(yī)療
    +關(guān)注

    關(guān)注

    8

    文章

    1906

    瀏覽量

    59955
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25458
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22629

原文標(biāo)題:醫(yī)療NLP相關(guān)數(shù)據(jù)集整理

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    澳鵬發(fā)布MediGo醫(yī)療大模型數(shù)據(jù)開發(fā)平臺 破解醫(yī)療AI數(shù)據(jù)瓶頸

    上海?2025年6月23日?/美通社/ -- 全球領(lǐng)先的AI數(shù)據(jù)服務(wù)提供商澳鵬Appen(中國)今日正式發(fā)布MediGo醫(yī)療大模型數(shù)據(jù)開發(fā)平臺,這創(chuàng)新性平臺旨在解決
    的頭像 發(fā)表于 06-24 07:26 ?111次閱讀
    澳鵬發(fā)布MediGo<b class='flag-5'>醫(yī)療</b>大模型<b class='flag-5'>數(shù)據(jù)</b>開發(fā)平臺 破解<b class='flag-5'>醫(yī)療</b>AI<b class='flag-5'>數(shù)據(jù)</b>瓶頸

    使用AICube導(dǎo)入數(shù)據(jù)點(diǎn)創(chuàng)建后提示數(shù)據(jù)不合法怎么處理?

    重現(xiàn)步驟 data目錄下 labels.txt只有英文 **錯誤日志** 但是使用示例的數(shù)據(jù)可以完成訓(xùn)練并部署
    發(fā)表于 06-24 06:07

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯網(wǎng)絡(luò)錯誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    技在手,醫(yī)療無憂!零基礎(chǔ)轉(zhuǎn)行高薪醫(yī)療維修工程師

    ,剩下的就看個人能力了,對醫(yī)療器械維修感興趣但迷茫的可聯(lián)系我們,幫你解決疑難問題,帶你入門醫(yī)療維修行業(yè)! 技在手,醫(yī)療無憂!零基礎(chǔ)轉(zhuǎn)行高薪醫(yī)療
    發(fā)表于 05-15 10:22

    請問NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請問我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會有哪些原因?
    發(fā)表于 03-10 08:20

    無法將自定義COCO數(shù)據(jù)導(dǎo)入到OpenVINO? DL Workbench怎么解決?

    以精確 FP32 將自定義模型轉(zhuǎn)換為中間表示 (IR) 格式。 使用未注注的數(shù)據(jù)和默認(rèn)配置將 IR (FP32) 轉(zhuǎn)換為 IR (INT8)。 使用 IR(INT8)推斷造成糟糕的結(jié)果。 創(chuàng)建
    發(fā)表于 03-05 06:02

    JCMsuite應(yīng)用:四分之一波

    是光手性的本征態(tài)。因此,近場光手性密度與圓偏振密切相關(guān)。在幾何光學(xué)中,四分之一波板將線偏振轉(zhuǎn)換為圓偏振是眾所周知的。它們是由雙折射材料制成的,例如各向異性材料。片的厚度是尋常(x-)偏振和非尋常(z-
    發(fā)表于 02-21 08:49

    電話配線架怎么整理好看

    要使電話配線架整理得既美觀又實(shí)用,可以遵循以下步驟和建議: 、前期準(zhǔn)備 了解配線架結(jié)構(gòu): 熟悉電話配線架的類型、結(jié)構(gòu)和功能,確保整理過程中不會對設(shè)備造成損害。 斷開電源與通信: 在整理
    的頭像 發(fā)表于 02-19 11:34 ?499次閱讀

    如何進(jìn)行自然語言處理模型訓(xùn)練

    1. 確定目標(biāo)和需求 在開始之前,你需要明確你的NLP項(xiàng)目的目標(biāo)是什么。這可能是文本分類、情感分析、機(jī)器翻譯、問答系統(tǒng)等。明確目標(biāo)有助于選擇合適的數(shù)據(jù)和模型架構(gòu)。 2. 數(shù)據(jù)收集和預(yù)
    的頭像 發(fā)表于 11-11 10:43 ?1190次閱讀

    NLP技術(shù)在聊天機(jī)器人中的作用

    聊天機(jī)器人,也稱為聊天AI,是種通過文本或語音與人類進(jìn)行交流的軟件。它們廣泛應(yīng)用于客戶服務(wù)、在線購物、個人助理等領(lǐng)域。NLP技術(shù)是實(shí)現(xiàn)聊天機(jī)器人智能對話能力的關(guān)鍵。 1. 理解用戶意圖 NLP技術(shù)
    的頭像 發(fā)表于 11-11 10:33 ?1037次閱讀

    求CS1262資料

    一波CS1262芯片的例程代碼、寄存器配置、完整數(shù)據(jù)手冊等,郵箱24181214463@stu.xidian.edu.cn。謝謝大家啦
    發(fā)表于 10-22 11:22

    關(guān)于太赫茲的介紹

    在上面的圖表中,光波和無線電波是相同的電磁,被應(yīng)用于社會的各個領(lǐng)域。 另方面,太赫茲還沒有被應(yīng)用。然而,太赫茲具有以下有吸引力的特性和各領(lǐng)域的預(yù)期是很有用的。 太赫茲
    的頭像 發(fā)表于 09-29 06:18 ?786次閱讀
    <b class='flag-5'>關(guān)于</b>太赫茲<b class='flag-5'>波</b>的介紹

    「知識講堂」外骨骼康復(fù)機(jī)器人醫(yī)療器械分類、標(biāo)準(zhǔn)、注冊指導(dǎo)原則

    作為智慧康養(yǎng)創(chuàng)新引領(lǐng)者,邁步機(jī)器人深耕康復(fù)醫(yī)療器械領(lǐng)域多年,近期陸續(xù)有粉絲私信或留言,說自己剛涉足醫(yī)療器械不久,對外骨骼康復(fù)機(jī)器人比較感興趣,希望有更深度的了解。對此,小邁通宵達(dá)旦收集、整理了
    的頭像 發(fā)表于 08-07 14:10 ?1022次閱讀
    「知識講堂」外骨骼康復(fù)機(jī)器人<b class='flag-5'>醫(yī)療</b>器械分類、標(biāo)準(zhǔn)、注冊指導(dǎo)原則