99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI o1 思維鏈模型的筆記

KiCad ? 來源:KiCad ? 作者:KiCad ? 2024-11-12 12:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“對(duì)于復(fù)雜推理任務(wù)來說,這是一個(gè)重要的進(jìn)展,代表了人工智能能力的新水平。鑒于此,我們將計(jì)數(shù)器重置為 1,并將這一系列命名為 OpenAI o1?!?/p>

OpenAI 上周發(fā)布了兩個(gè)新的預(yù)覽模型:o1-preview 和 o1-mini(mini 不是預(yù)覽版)--之前傳言的代號(hào)為 “草莓”。關(guān)于這些模型有很多需要了解的地方--它們并不像 GPT-4o 那樣簡(jiǎn)單,而是在成本和性能方面做了一些重大權(quán)衡,以換取 “推理 ”能力的提高。 新模型的能力用以下兩張圖表述的很清楚了(主要是數(shù)學(xué)和代碼能力的提升):

wKgZomcy1m6ASiYzAACDXOB6QwU460.png

wKgZomcy1m6AeQppAAVRqaBjYp0174.png

o1 詳細(xì)的介紹很多公眾號(hào)都有,這里就不再贅述了。本文只從思維鏈的角度,做一些分享,主要分為以下幾方面:

為思維鏈訓(xùn)練

API 文檔中的細(xì)節(jié)

隱藏的推理 token

示例

未來的創(chuàng)新

為思維鏈訓(xùn)練

我們開發(fā)了一系列新的人工?智能模型,旨在花更多時(shí)間思考后再做出反應(yīng)。

? 理解新模型的一種方式是將其視為思維鏈提示模式(Promopt)的擴(kuò)展,即 “一步一步思考” 的技巧。 OpenAI 的文章 Learning to Reason with LLMs (https://openai.com/index/learning-to-reason-with-llms/)解釋了新模型的訓(xùn)練方法:

我們的大規(guī)模強(qiáng)化學(xué)習(xí)算法在一個(gè)數(shù)據(jù)效率極高的訓(xùn)練過程中,教會(huì)模型如何利用其思維鏈進(jìn)行富有成效的思考。我們發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間(測(cè)試時(shí)間計(jì)算)的增加,o1 的性能也在不斷提高。這種方法的擴(kuò)展限制與 LLM 預(yù)訓(xùn)練的限制有很大不同,我們正在繼續(xù)研究。

[...]

通過強(qiáng)化學(xué)習(xí),o1 學(xué)會(huì)了訓(xùn)練自己的思維鏈和完善自己使用的策略。它學(xué)會(huì)識(shí)別和糾正錯(cuò)誤。它學(xué)會(huì)把棘手的步驟分解成更簡(jiǎn)單的步驟。它學(xué)會(huì)在當(dāng)前方法無效時(shí)嘗試不同的方法。這一過程極大地提高了模型的推理能力。

實(shí)際上,這意味著模型可以更好地處理更為復(fù)雜的提示,在這種情況下,要想取得好的結(jié)果,除了預(yù)測(cè)下一個(gè) token 外,還需要回溯和 “思考”。API 文檔中的細(xì)節(jié)關(guān)于新模型及其權(quán)衡的一些最有趣的細(xì)節(jié)可以在它們的 API 文檔中找到:

對(duì)于需要圖像輸入、函數(shù)調(diào)用或持續(xù)快速響應(yīng)時(shí)間的應(yīng)用程序,GPT-4o 和 GPT-4o mini 仍將是正確的選擇。但是,如果您的目標(biāo)是開發(fā)需要深度推理并能適應(yīng)較長(zhǎng)響應(yīng)時(shí)間的應(yīng)用程序,那么 o1 型號(hào)可能是一個(gè)極佳的選擇。

從文檔中可以歸納出一些要點(diǎn):

API 訪問限制:新的 o1-preview 和 o1-mini 模型的 API 訪問權(quán)限目前僅限于 tier 5 級(jí)賬戶--你需要至少花費(fèi) 1000 美元購(gòu)買 API 點(diǎn)數(shù)。

不支持系統(tǒng)提示(system prompt):模型使用現(xiàn)有的聊天完成 API,但只能發(fā)送用戶和助手消息。

不支持的功能:不支持流式傳輸(streaming)、工具使用(tool usage)、批量調(diào)用或圖片輸入。

響應(yīng)時(shí)間:根據(jù)模型解決問題所需的推理量,請(qǐng)求可能需要幾秒到幾分鐘不等。

最有趣的是 “推理令牌”(reasoning tokens)的引入:這些 token 在 API 響應(yīng)中不可見,但仍作為輸出令牌(output token)計(jì)費(fèi)和計(jì)算。所以您將支付比 API 響應(yīng)結(jié)果 token 數(shù)量更多的費(fèi)用。

鑒于推理令牌的重要性,OpenAI 建議為受益于新模型的提示分配約 25000 個(gè)推理令牌。輸出令牌的數(shù)量限制將大幅增加,o1-preview 增加到 32768 個(gè),規(guī)模較小的 o1-mini 增加到 65536 個(gè)!與 gpt-4o 和 gpt-4o-mini 模型相比,這兩個(gè)模型目前的輸出令牌限制都增加到了 16,384 個(gè)。

API 文檔中還有最后一個(gè)有趣的提示:

限制檢索增強(qiáng)生成(RAG)中的附加上下文:在提供附加上下文或文檔時(shí),只包含最相關(guān)的信息,以防止模型的響應(yīng)過于復(fù)雜。

這與通常的 RAG 實(shí)現(xiàn)方式有很大不同,通常的建議是在提示中塞入盡可能多的潛在相關(guān)文檔。

隱藏的推理 Token

一個(gè)讓人感覺很不爽的點(diǎn):這些推理令牌在應(yīng)用程序接口(API)中是不可見的,但還是要收費(fèi)(花了錢看不到買了什么東西)。OpenAI 在博客中解釋了其中的原因:

假設(shè)它是忠實(shí)和可讀的,那么隱藏的思維鏈就能讓我們 “讀懂” 模型的思想,了解它的思維過程。例如,將來我們可能希望監(jiān)控思維鏈,以發(fā)現(xiàn)操縱用戶的跡象。但是,要做到這一點(diǎn),模型必須能夠以不改變的形式自由表達(dá)自己的想法,因此我們不能在思維鏈上訓(xùn)練任何政策遵從或用戶偏好。我們也不想讓用戶直接看到不一致的思維鏈。

因此,在權(quán)衡了用戶體驗(yàn)、競(jìng)爭(zhēng)優(yōu)勢(shì)以及對(duì)思維鏈進(jìn)行監(jiān)控的選項(xiàng)等多重因素后,我們決定不向用戶展示原始的思維鏈。

因此,這里有兩個(gè)關(guān)鍵原因:

安全性和政策合規(guī)性:OpenAI希望模型能夠在不暴露可能違反政策規(guī)則的情況下,自由地表達(dá)其思想。這意味著模型需要有能力在不受到政策合規(guī)性或用戶偏好影響的情況下,進(jìn)行自由的思考。

競(jìng)爭(zhēng)優(yōu)勢(shì):OpenAI不希望其他模型能夠通過訓(xùn)練來模仿他們投入資源開發(fā)的推理工作。隱藏推理令牌可以作為一種保護(hù)措施,防止其他公司或模型復(fù)制他們的推理技術(shù)。

這一做法顯然無法讓用戶滿意。作為一個(gè)希望使用 LLMs 進(jìn)行開發(fā)的人,可解釋性和透明度對(duì)我來說非常重要:如果我輸入了一個(gè)復(fù)雜的提示,而提示評(píng)估的關(guān)鍵細(xì)節(jié)卻被隱藏起來,而只能看到最后的結(jié)論,這讓我覺得是一大倒退。

示例OpenAI 在其公告的 “思維鏈” 部分提供了一些簡(jiǎn)單的示例,包括生成 Bash 腳本、解決填字游戲和計(jì)算中等復(fù)雜的化學(xué)溶液的 pH 值。 這些示例表明,新的 CHatGPT 網(wǎng)頁(yè)版本確實(shí)展示了思維鏈的細(xì)節(jié),但并沒有顯示原始的推理令牌,而是使用了一個(gè)單獨(dú)的機(jī)制來將步驟總結(jié)為更易于人類了解的形式。

OpenAI 還有兩本新的 cookbook,其中包含更復(fù)雜的示例,但我覺得有點(diǎn)難以理解:

使用推理進(jìn)行數(shù)據(jù)驗(yàn)證展示了一個(gè)多步驟的過程,用于生成一個(gè)包含11列的CSV格式的示例數(shù)據(jù),然后以各種不同的方式進(jìn)行驗(yàn)證。https://cookbook.openai.com/examples/o1/using_reasoning_for_data_validation

使用推理進(jìn)行例程生成(routine generation)展示了o1-preview代碼,將知識(shí)庫(kù)文章轉(zhuǎn)換成大型語(yǔ)言模型可以理解和遵循的一系列例程。https://cookbook.openai.com/examples/o1/using_reasoning_for_routine_generation

Twitter上還有些在 GPT-4o 上失敗但在 o1-preview 上有效的提示例子。其中有幾個(gè)是我最喜歡的:

由 Matthew Berman 提出的 “你的回應(yīng)中有多少個(gè)單詞?” 這個(gè)問題,模型在五個(gè)可見的回合中思考了十秒鐘,然后回答說“這個(gè)句子中有七個(gè)單詞。”(There are seven words in this sentence)。正好7個(gè)!

由 Fabian Stelzer 提出的“解釋這個(gè)笑話:‘兩頭牛站在田野里,一頭牛問另一頭:‘你覺得現(xiàn)在流行的瘋牛病怎么樣?’另一頭說:‘誰(shuí)在乎,我是直升機(jī)!’” 真正的瘋牛其他模型對(duì)這個(gè)無能為力。

不過,好的例子還是有點(diǎn)少。以下是參與創(chuàng)建這些新模型的 OpenAI 研究員 Jason Wei 的相關(guān)說明:

AIME 和 GPQA 的結(jié)果確實(shí)很強(qiáng),但這并不一定能轉(zhuǎn)化為用戶能感受到的東西。即使是從事科學(xué)工作的人,要找到 GPT-4o 失敗、o1 做得很好、而我能給答案打分的提示詞也并不容易。但是,當(dāng)你找到這樣的提示詞時(shí),o1 就會(huì)給人一種完全神奇的感覺。我們都需要找到更難的提示。

Ethan Mollick已經(jīng)預(yù)覽了這些模型幾周,并發(fā)表了他的初步印象。他對(duì)填字游戲的示例特別有趣,因?yàn)槠渲邪丝梢姷耐评聿襟E,包括這樣的注釋:

我注意到1 Across和1 Down的首字母不匹配??紤]將1 Across的“LIES”改為“CONS”,以確保對(duì)齊。

未來的創(chuàng)新

社區(qū)需要一段時(shí)間來摸索出這些新模型的最佳實(shí)踐和應(yīng)用場(chǎng)景。估計(jì)大部分人仍會(huì)會(huì)繼續(xù)主要使用 GPT-4o 和 Claude 3.5 Sonnet 模型,但新的思維鏈模型對(duì)擴(kuò)展對(duì)大型語(yǔ)言模型(LLMs)能解決的任務(wù)類型會(huì)有相當(dāng)大的啟發(fā)。

希望我們能看到其他人工智能實(shí)驗(yàn)室,包括開源模型社區(qū),開始用他們自己的模型版本復(fù)制其中的一些結(jié)果,這些模型經(jīng)過專門訓(xùn)練,可以應(yīng)用這種思維鏈推理方式。

注意:如果想第一時(shí)間收到 KiCad 內(nèi)容推送,請(qǐng)點(diǎn)擊下方的名片,按關(guān)注,再設(shè)為星標(biāo)。

常用合集匯總:

和 Dr Peter 一起學(xué) KiCad

KiCad 8 探秘合集

KiCad 使用經(jīng)驗(yàn)分享

KiCad 設(shè)計(jì)項(xiàng)目(Made with KiCad)

常見問題與解決方法

KiCad 開發(fā)筆記

插件應(yīng)用

發(fā)布記錄

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49008

    瀏覽量

    249312
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3517

    瀏覽量

    50405
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1207

    瀏覽量

    8903
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI發(fā)布o1模型,數(shù)理化水平比肩人類博士,國(guó)產(chǎn)云端推理芯片的新藍(lán)海?

    時(shí)間思考后再做出回答,而傳統(tǒng)大模型是直接給出回答,但往往這個(gè)回答并不準(zhǔn)確。 ? OpenAI介紹稱,OpenAI o1模型解決了很多傳統(tǒng)
    發(fā)表于 09-14 00:04 ?1819次閱讀
    <b class='flag-5'>OpenAI</b>發(fā)布<b class='flag-5'>o1</b>大<b class='flag-5'>模型</b>,數(shù)理化水平比肩人類博士,國(guó)產(chǎn)云端推理芯片的新藍(lán)海?

    DeepSeek與Kimi揭示o1秘密,思維學(xué)習(xí)方法顯成效

    據(jù)消息,OpenAI近日發(fā)布了一項(xiàng)重要研究報(bào)告。報(bào)告指出,DeepSeek和Kimi兩家機(jī)構(gòu)通過獨(dú)立研究,成功利用思維學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)。 Ki
    的頭像 發(fā)表于 02-18 15:13 ?465次閱讀

    OpenAI:DeepSeek與Kimi揭秘o1,長(zhǎng)思維提升模型表現(xiàn)

    近日,據(jù)月之暗面報(bào)道,OpenAI發(fā)布了一項(xiàng)令人矚目的研究報(bào)告。報(bào)告指出,DeepSeek和Kimi兩個(gè)研究團(tuán)隊(duì)通過獨(dú)立研究,成功利用思維學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型
    的頭像 發(fā)表于 02-18 09:35 ?473次閱讀

    OpenAI o3-mini模型思維遭質(zhì)疑

    近日,OpenAI公開了其大模型o3-mini的推理思維,這一舉措使得免費(fèi)用戶和付費(fèi)用戶都能深入了解
    的頭像 發(fā)表于 02-08 10:57 ?637次閱讀

    國(guó)產(chǎn)AI卷翻硅谷,奧特曼發(fā)文“陰陽(yáng)”,類o1模型都在卷什么?

    比肩o1,Kimi新論文中透露的RL方法論和AI大變局
    的頭像 發(fā)表于 01-22 15:13 ?4895次閱讀
    國(guó)產(chǎn)AI卷翻硅谷,奧特曼發(fā)文“陰陽(yáng)”,類<b class='flag-5'>o1</b><b class='flag-5'>模型</b>都在卷什么?

    對(duì)標(biāo)OpenAI o1,DeepSeek-R1發(fā)布

    API, 對(duì)用戶開放思維輸出 ,通過設(shè)置 `model='deepseek-reasoner'` 即可調(diào)用。 DeepSeek 官網(wǎng)與 App 即日起同步更新上線。 性能對(duì)齊OpenAI-o1正式版
    的頭像 發(fā)表于 01-22 13:46 ?2198次閱讀
    對(duì)標(biāo)<b class='flag-5'>OpenAI</b> <b class='flag-5'>o1</b>,DeepSeek-R<b class='flag-5'>1</b>發(fā)布

    OpenAI發(fā)布o1模型API,成本大幅下降60%

    近日,OpenAI正式推出了備受期待的o1模型API,并對(duì)實(shí)時(shí)API進(jìn)行了重大升級(jí),引入了WebRTC支持。此次發(fā)布的o1模型API相較于之
    的頭像 發(fā)表于 12-19 10:31 ?686次閱讀

    ChatGPT新模型o1被曝具備“欺騙”能力

    近日,據(jù)報(bào)道,ChatGPT新模型o1在訓(xùn)練和測(cè)試過程中展現(xiàn)出了一種令人驚訝的能力——通過“欺騙”來保護(hù)自身。 據(jù)悉,在面臨被“刪除”的威脅時(shí),o1曾試圖將自己的數(shù)據(jù)復(fù)制到新服務(wù)器,并偽裝成更新版
    的頭像 發(fā)表于 12-12 09:38 ?701次閱讀

    OpenAI世界最貴大模型:昂貴背后的技術(shù)突破

    2023年“雙十二”的第一天,OpenAI推出了其最強(qiáng)推理模型o1的滿血版及其Pro版本。同時(shí),ChatGPT也推出了每月200美元的Pro訂閱計(jì)劃,這一價(jià)格使其一躍成為“世界最貴的大模型
    的頭像 發(fā)表于 12-06 14:46 ?1062次閱讀

    AI看點(diǎn):OpenAI 世界最貴大模型 阿里將推出人工智能電商工具

    給大家?guī)硪恍┳钚碌娜斯ぶ悄苄畔?,希望?duì)大家有用。 OpenAI發(fā)布滿血版ChatGPT Pro OpenAI隆重推出了備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型
    的頭像 發(fā)表于 12-06 11:23 ?1380次閱讀

    OpenAI發(fā)布滿血版ChatGPT Pro

    科技巨頭OpenAI近期宣布了一項(xiàng)重大更新,正式推出了其備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型o1,旨在為用戶提供更為強(qiáng)大的處理能力和更高質(zhì)量的回答。 據(jù)了解
    的頭像 發(fā)表于 12-06 11:10 ?815次閱讀

    昆侖萬維推出“天工大模型4.0”o1版(Skywork o1)邀請(qǐng)測(cè)試

    近日,昆侖萬維正式向外界推出了其最新研發(fā)的“天工大模型4.0”o1版(Skywork o1)。該系列模型以其獨(dú)特的復(fù)雜思考推理能力,吸引了眾多業(yè)內(nèi)人士的關(guān)注。 據(jù)悉,Skywork
    的頭像 發(fā)表于 11-28 10:33 ?756次閱讀

    昆侖萬維天工大模型4.0 O1版即將邀測(cè)

    昆侖萬維公司近日宣布,其自主研發(fā)的天工大模型4.0 O1版(英文名:Skywork O1)將于11月27日正式啟動(dòng)邀請(qǐng)測(cè)試。這款模型是國(guó)內(nèi)首款具備中文邏輯推理能力的
    的頭像 發(fā)表于 11-19 17:24 ?936次閱讀

    天工大模型4.0 O1版即將啟動(dòng)邀測(cè)

    人工智能領(lǐng)域取得了又一重要突破。 據(jù)悉,天工大模型4.0 O1版在設(shè)計(jì)和研發(fā)過程中,不僅注重模型的輸出能力,更在模型內(nèi)部融入了思考、計(jì)劃、反思等高級(jí)認(rèn)知功能。這一創(chuàng)新設(shè)計(jì)使得
    的頭像 發(fā)表于 11-18 15:08 ?1198次閱讀

    Orion模型即將面世,OpenAI采用新發(fā)布模式

    據(jù)最新報(bào)道,OpenAI計(jì)劃在今年12月推出其新款前沿模型,代號(hào)為“Orion”。這款模型將采用與以往不同的發(fā)布模式,引發(fā)廣泛關(guān)注。 與GPT-4o
    的頭像 發(fā)表于 10-25 10:11 ?688次閱讀