99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

解讀ChatGPT背后的技術重點:RLHF、IFT、CoT、紅藍對抗

深度學習自然語言處理 ? 來源:Hugging Face ? 2023-02-09 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近段時間,ChatGPT 橫空出世并獲得巨大成功,使得 RLHF、SFT、IFT、CoT 等這些晦澀的縮寫開始出現(xiàn)在普羅大眾的討論中。這些晦澀的首字母縮略詞究竟是什么意思?為什么它們?nèi)绱酥匾??我們調查了相關的所有重要論文,以對這些工作進行分類,總結迄今為止的工作,并對后續(xù)工作進行展望。

我們先來看看基于語言模型的會話代理的全景。ChatGPT 并非首創(chuàng),事實上很多組織在 OpenAI 之前就發(fā)布了自己的語言模型對話代理 (dialog agents),包括 Meta 的 BlenderBot,Google 的 LaMDA,DeepMind 的 Sparrow,以及 Anthropic 的 Assistant (Anthropic 的 Claude 就是部分基于 Assistant 繼續(xù)開發(fā)而得的)。

語言模型對話代理產(chǎn)品論文鏈接:

  • Meta 的 BlenderBot:
    https://arxiv.org/abs/2208.03188
  • Google 的 LaMDA:
    https://arxiv.org/abs/2201.08239
  • DeepMind 的 Sparrow:
    https://arxiv.org/abs/2209.14375
  • Anthropic 的 Assistant:
    https://arxiv.org/abs/2204.05862

其中一些團隊還公布了他們構建開源聊天機器人的計劃,并公開分享了路線圖 (比如 LAION 團隊的 Open Assistant),其他團隊肯定也有類似的內(nèi)容,但尚未宣布。你可以在 Open Assistant 的 GitHub 倉庫中找到其愿景 & 路線圖文檔:https://github.com/LAION-AI/Open-Assistant

下表根據(jù)是否能公開訪問、訓練數(shù)據(jù)、模型架構和評估方向的詳細信息對這些 AI 聊天機器人進行了比較。ChatGPT 沒有這些信息的記錄,因此我們改為使用 InstructGPT 的詳細信息,這是一個來自 OpenAI 的指令微調模型,據(jù)信它是 ChatGPT 的基礎。

LaMDA BlenderBot 3 Sparrow ChatGPT / InstructGPT Assistant
組織 Google Meta DeepMind OpenAI Anthropic
能否公開訪問 有限
大小 137B 175B 70B 175B 52B
預訓練
基礎模型
未知 OPT Chinchilla GPT-3.5 未知
預訓練語料庫大小(詞數(shù)) 2.81T 180B 1.4T 未知 400B
模型是否可以
訪問網(wǎng)絡
有監(jiān)督
微調
微調
數(shù)據(jù)大小
質量:6.4K
安全性:8K
真實性:4K
IR:49K
大小從 18K 到 1.2M 不等的 20 個 NLP 數(shù)據(jù)集 未知 12.7K (此為 InstructGPT,ChatGPT 可能更多) 150K+ LM 生成的數(shù)據(jù)
RLHF
人為制定的安全規(guī)則
評價標準 1、質量 (合情性、具體性、趣味性)
2、安全性 (偏見) 3、真實性
1、質量 (參與度、知識運用)
2、安全性 (毒性、偏見)
1、校直 (有幫助,無害,正確)
2、證據(jù) (來自網(wǎng)絡)
3、是否違反規(guī)則
4、偏見和刻板印象
5、誠信度
1、 校直 (有幫助、無害、真實)
2、偏見
1、校直 (有幫助、無害、誠實)
2、偏見
用于數(shù)據(jù)標注的眾包平臺 美國供應商 亞馬遜 MTurk 未知 Upwork 和 Scale AI Surge AI、Amazon MTurk 和 Upwork

我們觀察到,盡管在訓練數(shù)據(jù)、模型和微調方面存在許多差異,但也存在一些共性。上述所有聊天機器人的一個共同目標是「指令依從 (instruction following)」,即遵循用戶指定的指令。例如,要求 ChatGPT 寫一首關于微調的詩。

36c4ea3e-a808-11ed-bfe3-dac502259ad0.jpgChatGPT 指令示例

從預測文本到遵循指令

通常,基礎模型的語言建模目標不足以讓模型學會以有用的方式遵循用戶的指令。模型創(chuàng)建者使用「指令微調 (Instruction Fine-Tuning,IFT)」方法來達到該目的,該方法除了使用情感分析、文本分類、摘要等經(jīng)典 NLP 任務來微調模型外,還在非常多樣化的任務集上向基礎模型示范各種書面指令及其輸出,從而實現(xiàn)對基礎模型的微調。這些指令示范由三個主要部分組成 —— 指令、輸入和輸出。輸入是可選的,一些任務只需要指令,如上文使用 ChatGPT 做開放式文本生成的示例。當存在輸入時,輸入和輸出組成一個「實例 (instance)」。給定指令可以有多個輸入和輸出實例。如下例 (摘自 Wang 等,'22):

36f0f232-a808-11ed-bfe3-dac502259ad0.png指令和實例示例

IFT 的訓練數(shù)據(jù)通常是人工編寫的指令及用語言模型自舉 (bootstrap) 生成的實例的集合。在自舉時,先使用少樣本技術輸入一些樣本給 LM 用于提示它 (如上圖所示),隨后要求 LM 生成新的指令、輸入和輸出。每一輪都會從人工編寫的樣本和模型生成的樣本中各選擇一些送給模型。人類和模型對創(chuàng)建數(shù)據(jù)集的貢獻構成了一個譜圖,見下圖:

37112174-a808-11ed-bfe3-dac502259ad0.pngIFT 譜圖

譜圖的一端是純模型生成的 IFT 數(shù)據(jù)集,例如 Unnatural Instructions (Honovich 等,'22);另一端是經(jīng)由社區(qū)的大量努力精心制作的指令如 Super-natural instructions (Wang 等,'22)。在這兩者之間的工作是使用一小組高質量的種子數(shù)據(jù)集,然后進行自舉生成最終數(shù)據(jù)集,如 Self-Instruct (Wang 等,'22)。為 IFT 整理數(shù)據(jù)集的另一種方法是將現(xiàn)有的用于各種任務 (包括提示)的高質量眾包 NLP 數(shù)據(jù)集使用統(tǒng)一模式或不同模板轉換為指令。這一系列工作包括 T0 (Sanh 等,'22)、Natural instructions 數(shù)據(jù)集 (Mishra 等,'22)、FLAN LM (Wei 等,'22) 和 OPT-IML (Iyer 等,'22)。

論文鏈接:

  • Unnatural Instructions (Honovich 等, '22):
    https://arxiv.org/abs/2212.09689
  • Super-natural instructions (Wang 等, '22):
    https://arxiv.org/abs/2204.07705
  • Self-Instruct (Wang 等, '22):
    https://arxiv.org/abs/2212.10560
  • T0 (Sanh 等, '22):
    https://arxiv.org/abs/2110.08207
  • Natural instructions 數(shù)據(jù)集 (Mishra 等, '22):
    https://arxiv.org/abs/2104.08773
  • FLAN LM (Wei 等, '22):
    https://arxiv.org/abs/2109.01652
  • OPT-IML (Iyer 等, '22):
    https://arxiv.org/abs/2212.12017

安全地遵循指令

然而,經(jīng)過指令微調的 LM 并不總是能生成有幫助的安全的響應。這種行為的例子包括通過總是給出無益的回應來逃避,例如 “對不起,我不明白。” 或對敏感話題的用戶輸入生成不安全的響應。為了減輕這種行為,模型開發(fā)人員使用有監(jiān)督微調 (Supervised Fine-tuning, SFT),在高質量的人類標注數(shù)據(jù)上微調基礎語言模型,以提高有用性和無害性。例如,請參閱下面的表格(摘自 Sparrow 論文的附錄 F)。

SFT 和 IFT 聯(lián)系非常緊密。指令微調可以看作是有監(jiān)督微調的一個子集。在最近的文獻中,SFT 階段經(jīng)常被用于提高響應的安全性,而不是接在 IFT 后面提高指令相應的具體性。將來,這種分類和劃分應該日臻成熟,形成更清晰的使用場景和方法論。

372858b2-a808-11ed-bfe3-dac502259ad0.png人工安全規(guī)則

谷歌的 LaMDA 也根據(jù)一組規(guī)則 (論文附錄 A) 在帶有安全標注的對話數(shù)據(jù)集上進行微調。這些規(guī)則通常由模型創(chuàng)建者預先定義和開發(fā),涵蓋廣泛的主題,包括傷害、歧視、錯誤信息。

微調模型

同時,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 使用人類反饋強化學習 (Reinforcement Learning From Human Feedback,RLHF)來微調模型,該方法使用基于人類偏好的標注數(shù)據(jù)。在 RLHF 中,根據(jù)人類反饋來對模型的響應進行排序標注 (如,根據(jù)人類偏好選擇文本簡介)。然后,用這些帶標注的響應來訓練偏好模型,該模型用于返回 RL 優(yōu)化器的標量獎勵。最后,通過強化學習訓練對話代理來模擬偏好模型。有關更多詳細信息,請參閱我們之前關于 RLHF 的文章:ChatGPT 背后的“功臣”——RLHF 技術詳解。

思維鏈 (Chain-of-thought,CoT)提示 (Wei 等,'22) 是指令示范的一種特殊情況,它通過引發(fā)對話代理的逐步推理來生成輸出。使用 CoT 微調的模型使用帶有逐步推理的人工標注的指令數(shù)據(jù)集。這是Let’s think step by step這一著名提示的由來。下面的示例取自 Chung 等,'22,橙色高亮的部分是指令,粉色是輸入和輸出,藍色是 CoT 推理。

37378d00-a808-11ed-bfe3-dac502259ad0.pngCoT 圖解

如 Chung 等,'22 中所述,使用 CoT 微調的模型在涉及常識、算術和符號推理的任務上表現(xiàn)得更好。

如 Bai 等,'22 的工作所示,CoT 微調也顯示出對無害性非常有效 (有時比 RLHF 做得更好),而且對敏感提示,模型不會回避并生成 “抱歉,我無法回答這個問題” 這樣的回答。更多示例,請參見其論文的附錄 D。

3745c460-a808-11ed-bfe3-dac502259ad0.pngCoT 和 RLHF 的對比

論文鏈接:

  • 思維鏈提示 (Wei 等, '22):
    https://arxiv.org/abs/2201.11903
  • Let’s think step by step:
    https://arxiv.org/abs/2205.11916
  • CoT 圖解示例 (Chung 等, '22):
    https://arxiv.org/abs/2210.11416
  • CoT 微調也顯示出對無害性非常有效 (Bai 等, '22):
    ttps://www.anthropic.com/constitutional.pdf

要點

  1. 與預訓練數(shù)據(jù)相比,您只需要非常小的一部分數(shù)據(jù)來進行指令微調 (幾百個數(shù)量級);
  2. 使用人工標注的有監(jiān)督微調使模型輸出更安全和有用;
  3. CoT 微調提高了模型在需要逐步思考的任務上的性能,并使它們在敏感話題上不那么回避。

對話代理的進一步工作

這個博客總結了許多關于使對話代理有用的現(xiàn)有工作。但仍有許多懸而未決的問題有待探索。我們在這里列出了其中的一些。

  1. RL 在從人類反饋中學習有多重要?我們能否通過在 IFT 或 SFT 中使用更高質量的數(shù)據(jù)進行訓練來獲得 RLHF 的性能?
  2. 為了安全的角度看,Sparrow 中的 SFT+RLHF 與 LaMDA 中僅使用 SFT 相比如何?
  3. 鑒于我們有 IFT、SFT、CoT 和 RLHF,預訓練有多大的必要性?如何折衷?人們應該使用的最佳基礎模型是什么 (公開的和非公開的)?
  4. 本文中引用的許多模型都經(jīng)過 紅藍對抗 (red-teaming) 的精心設計,工程師特地搜尋故障模式并基于已被揭示的問題改進后續(xù)的訓練 (提示和方法)。我們?nèi)绾蜗到y(tǒng)地記錄這些方法的效果并重現(xiàn)它們?

紅藍對抗 (red-teaming) 論文地址:
https://arxiv.org/abs/2209.07858

P.s. 如果您發(fā)現(xiàn)本博客中的任何信息缺失或不正確,請告知我們。

引用:

Rajani et al.,"What Makes a Dialog Agent Useful?", Hugging Face Blog, 2023.

BibTeX 引用:

@article{rajani2023ift,
author={Rajani,NazneenandLambert,NathanandSanh,VictorandWolf,Thomas},
title={WhatMakesaDialogAgentUseful?},
journal={HuggingFaceBlog},
year={2023},
note={https://huggingface.co/blog/dialog-agents},
}


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10792
  • OpenAI
    +關注

    關注

    9

    文章

    1210

    瀏覽量

    8924
  • ChatGPT
    +關注

    關注

    29

    文章

    1590

    瀏覽量

    9107

原文標題:解讀 ChatGPT 背后的技術重點:RLHF、IFT、CoT、紅藍對抗

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    0603貼片LED|0603藍燈珠|0603貼片LED燈源【深圳鑫光碩科技】

    `0603雙色貼片LED燈珠:0603系列雙色貼片LED燈珠的重要參數(shù):品牌:鑫光碩LED正向電壓 : 1.8-2.2/2.8-3.4(V)型號:0603
    發(fā)表于 02-21 11:29

    0603雙色LED燈|0603雙色LED指示燈|0603雙色LED部分參數(shù)【深圳鑫光碩科技】

    `0603雙色貼片LED燈珠:0603系列雙色貼片LED燈珠的重要參數(shù):品牌:鑫光碩LED正向電壓 : 1.8-2.2/2.8-3.4(V)型號:0603
    發(fā)表于 02-21 11:36

    設計具有COT的穩(wěn)定Fly-Buck?轉換器需要考慮哪些指標

    ,但背后的解釋可能則會很復雜。我們將通過兩篇文章加以說明:本文我們將重點討論技術分析,第二篇文章則將針對設計進行逐步指導。顧名思義,占空導通時間是在給定輸入電壓下進行 COT
    發(fā)表于 11-21 07:16

    chatGPT一種生產(chǎn)力的變革

    ,這種形式的AIGC無須經(jīng)過調整或只經(jīng)過少量微調就可以遷移到多種生成任務。 2014年誕生的生成對抗網(wǎng)絡(GAN)是AIGC早期轉向大模型的重要嘗試,它利用生成器和判別器的相互對抗并結合其他技術模塊
    發(fā)表于 04-25 16:04

    對抗與安全督查融合探索

    根據(jù)當前信息安全大形勢,以及國家信息網(wǎng)絡安全的工作要求,公司組織開展了對抗攻防演練工作,深化信息安全技術督查工作,督促國網(wǎng)上海市電力公司下屬單位落實各項信息安全管理要求和
    發(fā)表于 01-04 17:13 ?11次下載

    對抗的演練工具—Goblin

    Goblin 是一款適用于對抗的演練工具。通過反向代理,可以在不影響用戶操作的情況下無感知的獲取用戶的信息,或者誘導用戶操作。也可以通過使用代理方式達到隱藏服務端的目的。內(nèi)置插件,通過簡單的配置,快速調整網(wǎng)頁內(nèi)容以達到更好的
    的頭像 發(fā)表于 11-01 09:05 ?1500次閱讀

    一款適用于對抗的演練工具Goblin介紹

    Goblin 是一款適用于對抗的演練工具。通過反向代理,可以在不影響用戶操作的情況下無感知的獲取用戶的信息,或者誘導用戶操作。
    的頭像 發(fā)表于 11-01 09:06 ?2131次閱讀

    詳細解讀ChatGPT 背后技術重點

    通常,基礎模型的語言建模目標不足以讓模型學會以有用的方式遵循用戶的指令。模型創(chuàng)建者使用「指令微調 (Instruction Fine-Tuning,IFT)」方法來達到該目的。
    發(fā)表于 02-09 10:20 ?837次閱讀

    解讀ChatGPT背后技術重點

    我們觀察到,盡管在訓練數(shù)據(jù)、模型和微調方面存在許多差異,但也存在一些共性。上述所有聊天機器人的一個共同目標是「指令依從 (instruction following)」,即遵循用戶指定的指令。例如,要求 ChatGPT 寫一首關于微調的詩。
    的頭像 發(fā)表于 02-09 17:11 ?1723次閱讀

    ChatGPT for SegmentFault 插件來襲 ChatGPT for SegmentFault 插件使用方案解讀

    機器人插件,可以幫助開發(fā)者快速構建聊天機器人應用。下文小編會給大家分享一下ChatGPT for SegmentFault 插件使用方案解讀。 ChatGPT for SegmentFault 是一個
    的頭像 發(fā)表于 02-16 18:45 ?3259次閱讀

    ChatGPT成功背后技術原因

    ChatGPT不僅是自然語言理解領域的一項技術進步,會引發(fā)新一輪信息服務和內(nèi)容生成領域的商業(yè)潮流,同時,其背后基于海量數(shù)據(jù)的深度生成技術,以及基于人類反饋的強化學習
    發(fā)表于 02-21 09:40 ?1345次閱讀

    一文解析ChatGPT原理及技術架構算法

    OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人類反饋強化學習) 技術ChatGPT 進行了訓練,且加入了更多人工監(jiān)督進行微調。
    發(fā)表于 03-10 15:38 ?1.2w次閱讀

    ChatGPT看人工智能的軍事應用

    ChatGPT受到關注的重要原因是引入了新技術RLHF。所謂RLHF,就是通過人類的反饋來優(yōu)化模型算法,使AI模型的輸出結果和人類的常識、認知、價值觀趨于一致。簡單來說,就是跟過去的A
    的頭像 發(fā)表于 04-14 09:58 ?1028次閱讀

    英特爾銳炫顯卡運行類ChatGPT的開源大語言模型(LLM)Dolly 2.0解讀

    人類偏好強化學習Reinforcement learning with human preferences(RLHF)和 InstructGPT 等技術一直是 ChatGPT 和 GPT-4 等突破的核心基礎。
    的頭像 發(fā)表于 07-07 11:00 ?1991次閱讀
    英特爾銳炫顯卡運行類<b class='flag-5'>ChatGPT</b>的開源大語言模型(LLM)Dolly 2.0<b class='flag-5'>解讀</b>

    chatgpt是什么意思 ChatGPT背后技術原理

      今天我們?yōu)榇蠹規(guī)淼奈恼?,深入淺出地闡釋了ChatGPT背后技術原理,沒有NLP或算法經(jīng)驗的小伙伴,也可以輕松理解ChatGPT是如何工作的。  
    發(fā)表于 07-18 17:12 ?0次下載