飛槳自然語言處理模型庫 PaddleNLP,聚合眾多百度自然語言處理領(lǐng)域自研 SOTA 算法以及社區(qū)開源模型,并憑借飛槳核心框架底層能力,不斷開源適合產(chǎn)業(yè)界應用的模型、場景、預測加速與部署能力,得到學術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。今年,PaddleNLP 帶來重大升級,覆蓋信息抽取、文本分類、情感分析、語義檢索、智能問答等自然語言處理領(lǐng)域核心任務。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器,在 NVIDIA GPU 上進行體驗!
PaddleNLP 開源首個面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案 UIE,零樣本、小樣本效果領(lǐng)先
通用信息抽取技術(shù) UIE(Universal Information Extraction)大一統(tǒng)諸多任務,在實體、關(guān)系、事件和情感等 4 個信息抽取任務、13 個數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下,取得了 SOTA 性能,這項成果發(fā)表在 ACL 2022。PaddleNLP 結(jié)合文心大模型中的知識增強 NLP 大模型 ERNIE 3.0,發(fā)揮了 UIE 在中文任務上的強大潛力,開源了首個面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案 UIE,其多任務統(tǒng)一建模特性大幅降低了模型開發(fā)成本和部署的機器成本,基于 Prompt 的零樣本抽取和少樣本遷移能力更是驚艷!
通過調(diào)用paddlenlp.TaskflowAPI即可實現(xiàn)零樣本(zero-shot)抽取多種類型的信息,以實體抽取為例:
from pprint import pprint
from paddlenlp import Taskflow
schema = ['時間', '選手', '賽事名稱'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
pprint(ie("2月8日上午北京冬奧會自由式滑雪女子大跳臺決賽中中國選手谷愛凌以188.25分獲得金牌!")) # Better print results using pprint
[{'時間': [{'end': 6, 'probability': 0.9857378532924486, 'start': 0, 'text': '2月8日上午'}],
'賽事名稱': [{'end': 23,'probability': 0.8503089953268272,'start': 6,'text': '北京冬奧會自由式滑雪女子大跳臺決賽'}],
'選手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷愛凌'}]}]
對于復雜目標,可以標注少量數(shù)據(jù)(Few-shot)進行模型訓練,以進一步提升效果。PaddleNLP 打通了從數(shù)據(jù)標注-訓練-部署全流程,方便大家進行定制化訓練。以金融領(lǐng)域事件抽取任務為例,僅僅標注 5 條樣本,F(xiàn)1 值就提升了 25 個點!

表 1:UIE 在信息抽取數(shù)據(jù)集上零樣本和小樣本效果(F1-score)
GitHub 地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie開源文心 ERNIE-Layout,文檔智能不再難
(1)文心 ERNIE-Layout 多語言版跨模態(tài)布局增強文檔預訓練大模型
文心 ERNIE-Layout 依托文心 ERNIE,基于布局知識增強技術(shù),融合文本、圖像、布局等信息進行聯(lián)合建模,能夠?qū)Χ嗄B(tài)文檔(如文檔圖片、PDF 文件、掃描件等)進行深度理解與分析,刷新了五類 11 項文檔智能任務效果,為各類上層應用提供 SOTA 模型底座。

圖 1:百度文檔智能技術(shù)指標
(2)DocPrompt 開放文檔抽取問答模型(基于 ERNIE-Layout)
DocPrompt 以 ERNIE-Layout 為底座,可精準理解圖文信息,推理學習附加知識,準確捕捉圖片、PDF 等多模態(tài)文檔中的每個細節(jié)。通過PaddleNLP Taskflow,僅用三行Python代碼即可快速體驗DocPrompt功能。

DocPrompt 零樣本效果非常強悍!能夠推理學習空間位置語義,準確捕捉跨模態(tài)文檔信息,輕松應對各類復雜文檔:

圖 2:DocPrompt 可支持空間位置語義理解

圖 3:DocPrompt 支持多維度無框線表格問答
GitHub 地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layoutPaddleNLP 發(fā)布 NLP 流水線系統(tǒng)Pipelines,
10 分鐘搭建檢索、問答等復雜系統(tǒng)
Pipelines 將各個 NLP 復雜系統(tǒng)的通用模塊抽象封裝為標準組件,支持開發(fā)者通過配置文件對標準組件進行組合,僅需幾分鐘即可定制化構(gòu)建智能系統(tǒng),讓解決 NLP 任務像搭積木一樣便捷、靈活、高效。同時,Pipelines 中預置了前沿的預訓練模型和算法,在研發(fā)效率、模型效果和性能方面提供多重保障。
Pipelines 中集成 PaddleNLP 中豐富的預訓練模型和領(lǐng)先技術(shù)。例如針對檢索、問答等任務,Pipelines 預置了領(lǐng)先的召回模型和排序模型,其依托國際領(lǐng)先的端到端問答技術(shù) RocketQA 和首個人工標注的百萬級問答數(shù)據(jù)集 DuReader。

圖 5:RocketQA 問答技術(shù)領(lǐng)先
為了進一步降低開發(fā)門檻,提供最優(yōu)效果,PaddleNLP Pipelines 針對高頻場景內(nèi)置了產(chǎn)業(yè)級端到端系統(tǒng)。目前已開源語義檢索、MRC(閱讀理解)問答、FAQ 問答、跨模態(tài)文檔問答等多個應用。以檢索系統(tǒng)為例,Pipelines 內(nèi)置的語義檢索系統(tǒng)包括文檔解析(支持 PDF、WORD、圖片等解析)、海量文檔建庫、模型組網(wǎng)訓練、服務化部署、前端 Demo 界面(便于效果分析)等全流程功能。

圖 6:檢索系統(tǒng)流水線示意圖
圖 7:檢索系統(tǒng)前端 Demo
GitHub 地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines發(fā)布多場景文本分類方案,新增數(shù)據(jù)增強策略,可信增強技術(shù)
文本分類任務是 NLP 領(lǐng)域最常見、最基礎(chǔ)的任務之一,顧名思義,就是對給定的一個句子或一段文本進行分類。PaddleNLP 基于多分類、多標簽、層次分類等高頻分類場景,提供了預訓練模型微調(diào)、提示學習、語義索引三種端到端全流程分類方案。

圖 8:模型精度-時延圖
以上方案均離不開預訓練模型,在預訓練模型選擇上,ERNIE 系列模型在精度和性能上的綜合表現(xiàn)已全面領(lǐng)先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large 等中文模型。PaddleNLP 開源了如下多種尺寸的 ERNIE 系列預訓練模型,滿足多樣化的精度、性能需求:
-
ERNIE 1.0-Large-zh-CW(24L1024H)
-
ERNIE 3.0-Xbase-zh(20L1024H)
-
ERNIE 2.0-Base-zh (12L768H)
-
ERNIE 3.0-Base(12L768H)
-
ERNIE 3.0-Medium(6L768H)
-
ERNIE 3.0-Mini(6L384H)
-
ERNIE 3.0-Micro(4L384H)
-
ERNIE 3.0-Nano(4L312H)
… …
除中文模型外,PaddleNLP 也提供 ERNIE 2.0 英文版、以及基于 96 種語言(涵蓋法語、日語、韓語、德語、西班牙語等幾乎所有常見語言)預訓練的多語言模型 ERNIE-M,滿足不同語言的文本分類任務需求。
此外,PaddleNLP 文本分類方案依托TrustAI 可信增強能力和數(shù)據(jù)增強 API開源了模型分析模塊,針對標注數(shù)據(jù)質(zhì)量不高、訓練數(shù)據(jù)覆蓋不足、樣本數(shù)量少等文本分類常見數(shù)據(jù)痛點,提供稀疏數(shù)據(jù)篩選、臟數(shù)據(jù)清洗、數(shù)據(jù)增強三種數(shù)據(jù)優(yōu)化策略,解決訓練數(shù)據(jù)缺陷問題,用低成本方式獲得大幅度的效果提升。例如,使用 TrustAI 進行臟數(shù)據(jù)清洗后,文本分類精度有明顯提升。
新增 AutoPrompt 自動化提示功能,輕松上手 Prompt Learning,解決小樣本難題
通過配置自動化運行的提示學習框架 AutoPrompt,開發(fā)者可以以最低學習成本上手提示學習。AutoPrompt 借鑒了 OpenPrompt 對 Template、Verbalizer 等概念的抽象和設(shè)計,并在此基礎(chǔ)上擴展了更多特性,包括更靈活的提示設(shè)計,更便捷的算法切換,通過配置即可運行選擇最優(yōu)模型。

圖 10:AutoPrompt 整體流程方案
AutoPrompt 使用文檔:
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/advanced_guide/prompt.md以上是 PaddleNLP 近期新發(fā)功能介紹,歡迎前往官方地址了解更多詳情。喜歡的小伙伴歡迎star支持哦~您的支持是我們不斷進取的最大動力!也歡迎加入 PaddleNLP 官方交流群,探討前沿技術(shù)與產(chǎn)業(yè)實踐經(jīng)驗。
PaddleNLP 地址:
https://github.com/PaddlePaddle/PaddleNLP
NGC 飛槳容器介紹
如果您希望體驗 PaddleNLP 的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳聯(lián)合開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧(如 CUDA)進行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應用,專注于創(chuàng)新和應用本身,還能夠在 AI 訓練和推理任務上獲得飛槳+NVIDIA 帶來的飛速體驗。
最佳的開發(fā)環(huán)境搭建工具 - 容器技術(shù)。
-
容器其實是一個開箱即用的服務器。極大降低了深度學習開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要進行跨操作系統(tǒng)級別的遷移。
-
容器鏡像方便了開發(fā)者的版本化管理
-
容器鏡像是一種易于復現(xiàn)的開發(fā)環(huán)境載體
-
容器技術(shù)支持多容器同時運行

最好的 PaddlePaddle 容器
NGC 飛槳容器針對 NVIDIA GPU 加速進行了優(yōu)化,并包含一組經(jīng)過驗證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對 PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL(DALI, RAPIDS)、訓練(cuDNN, NCCL)和推理(TensorRT)工作負載的軟件。
PaddlePaddle 容器具有以下優(yōu)點:
-
適配最新版本的 NVIDIA 軟件棧(例如最新版本 CUDA),更多功能,更高性能。
-
更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性
-
按月更新
-
滿足 NVIDIA NGC 開發(fā)及驗證規(guī)范,質(zhì)量管理
通過飛槳官網(wǎng)快速獲取

環(huán)境準備
使用 NGC 飛槳容器需要主機系統(tǒng)(Linux)安裝以下內(nèi)容:
-
Docker 引擎
-
NVIDIA GPU 驅(qū)動程序
-
NVIDIA 容器工具包
有關(guān)支持的版本,請參閱NVIDIA 框架容器支持矩陣和NVIDIA 容器工具包文檔。
不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。
NGC 飛槳容器正式安裝:
要運行容器,請按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中Running A Container一章中的說明發(fā)出適當?shù)拿?,并指定注冊表、存儲庫?a target="_blank">標簽。有關(guān)使用 NGC 的更多信息,請參閱 NGC 容器用戶指南。如果您有 Docker 19.03 或更高版本,啟動容器的典型命令是:

*詳細安裝介紹 《NGC 飛槳容器安裝指南》
https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html*詳細產(chǎn)品介紹視頻
【飛槳開發(fā)者說|NGC 飛槳容器全新上線 NVIDIA 產(chǎn)品專家全面解讀】
https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82
飛槳與 NVIDIA NGC 合作介紹
NVIDIA 非常重視中國市場,特別關(guān)注中國的生態(tài)伙伴,而當前飛槳擁有超過 470 萬的開發(fā)者。在過去五年里我們緊密合作,深度融合,做了大量適配工作,如下圖所示。

今年,我們將飛槳列為 NVIDIA 全球前三的深度學習框架合作伙伴。我們在中國已經(jīng)設(shè)立了專門的工程團隊支持,賦能飛槳生態(tài)。
為了讓更多的開發(fā)者能用上基于 NVIDIA 最新的高性能硬件和軟件棧。當前,我們正在進行全新一代 NVIDIA GPU H100 的適配工作,以及提高飛槳對 CUDA Operation API 的使用率,讓飛槳的開發(fā)者擁有優(yōu)秀的用戶體驗及極致性能。
以上的各種適配,僅僅是讓飛槳的開發(fā)者擁有高性能的推理訓練成為可能。但是,這些離行業(yè)開發(fā)者還很遠,門檻還很高,難度還很大。
為此,我們將剛剛這些集成和優(yōu)化工作,整合到三大產(chǎn)品線中。其中 NGC 飛槳容器最為閃亮。
NVIDIA NGC Container – 最佳的飛槳開發(fā)環(huán)境,集成最新的 NVIDIA 工具包(例如 CUDA)

點擊查看往期精彩內(nèi)容
六:在 NGC 上玩轉(zhuǎn)圖像分割!NeurIPS 頂會模型、智能標注 10 倍速神器、人像分割 SOTA 方案、3D 醫(yī)療影像分割利器應有盡有!
五:在 NVIDIA NGC 上搞定模型自動壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22
四:在 NVIDIA NGC 上體驗輕量級圖像識別系統(tǒng)
三:在 NVIDIA NGC 上體驗一鍵 PDF 轉(zhuǎn) Word
二:PaddleDetection 發(fā)新,歡迎在 NVIDIA NGC 飛槳容器中體驗最新特性!
一:NVIDIA Deep Learning Examples飛槳ResNet50模型上線訓練速度超PyTorch ResNet50
原文標題:在NGC上玩轉(zhuǎn)飛槳自然語言處理模型庫PaddleNLP!信息抽取、文本分類、文檔智能、語義檢索、智能問答等產(chǎn)業(yè)方案應有盡有!
文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
22文章
3953瀏覽量
93793
原文標題:在NGC上玩轉(zhuǎn)飛槳自然語言處理模型庫PaddleNLP!信息抽取、文本分類、文檔智能、語義檢索、智能問答等產(chǎn)業(yè)方案應有盡有!
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫
【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀
望獲實時Linux系統(tǒng)與大語言模型深度融合,開創(chuàng)實時智能無限可能!
如何優(yōu)化自然語言處理模型的性能
如何使用自然語言處理分析文本數(shù)據(jù)
自然語言處理與機器學習的關(guān)系 自然語言處理的基本概念及步驟
語音識別與自然語言處理的關(guān)系
什么是LLM?LLM在自然語言處理中的應用
ASR與自然語言處理的結(jié)合
如何進行自然語言處理模型訓練
使用LLM進行自然語言處理的優(yōu)缺點
AI大模型在自然語言處理中的應用
AI智能化問答:自然語言處理技術(shù)的重要應用

評論