1月15日,科大訊飛舉行訊飛星火大模型升級發(fā)布會。
發(fā)布首個基于全國產(chǎn)算力平臺訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1,聯(lián)合華為首次攻克國產(chǎn)算力訓(xùn)練深度推理模型難關(guān)實現(xiàn)多學(xué)段數(shù)學(xué)能力的國內(nèi)第一,率先落地教育、醫(yī)療等剛需場景。
訊飛星火4.0 Turbo底座再次全面升級,七大核心能力全面提升,行業(yè)首發(fā)混域知識搜索技術(shù)。
發(fā)布星火語音同傳大模型,國內(nèi)首個語音端到端同傳大模型,最快實現(xiàn)5秒以內(nèi)的同傳時延,達(dá)到人類專家譯員的水平。
以下是全程實錄:
發(fā)布訊飛星火深度推理模型X1
萬里(產(chǎn)品經(jīng)理):訊飛星火X1是我國首個基于全國產(chǎn)算力訓(xùn)練的具備深度思考和推理能力的大模型。前兩天我也體驗了正式版本的效果,先請權(quán)哥給大家介紹一下,深度推理模型到底和通用大模型有什么不一樣的地方?
權(quán)哥(研究員):深度推理模型更擅長做數(shù)學(xué)題這樣的復(fù)雜任務(wù),而且有全面的思考推理過程。我們直接讓星火X1做2024年高考數(shù)學(xué)卷第15題,這是一道大題。
萬里:高考題目X1就算過關(guān)了,看起來很厲害啊。
權(quán)哥:我們讓X1參加了不少“考試”,現(xiàn)在看到的就是X1最近的“數(shù)學(xué)考試成績單”。
萬里:很優(yōu)秀的成績單,考試類型也很全面,覆蓋小學(xué)、初中、高中、大學(xué),還有奧數(shù)。
權(quán)哥:我們利用更少的算力,實現(xiàn)了業(yè)界一流的效果,多項指標(biāo)國內(nèi)第一。在小初高數(shù)學(xué)上,X1已經(jīng)做到90多分,競賽類也有80多分,大學(xué)的答題和競賽也達(dá)到了國內(nèi)領(lǐng)先。部分任務(wù)題目很難,在國產(chǎn)平臺適配跑通后的訓(xùn)練時間比較短,數(shù)據(jù)不太多,后面還有很大的提升空間。
萬里:榜單上還有英文任務(wù),也來試試。
想哥(研究員):2024年AIME競賽這道題比較難,里面有多個方程,還涉及到對數(shù)運算。
想哥:再找個奧賽題給X1試試,這是我們國內(nèi)去年高中數(shù)學(xué)奧賽的題目。
權(quán)哥:X1主要有三個典型特點。首先,它能夠化繁為簡,把復(fù)雜的問題拆解成多個步驟進行思考推理,剛才在做題的時候,右側(cè)對思考過程都有展示。第二,它能夠自我反思和驗證,和我們直覺是一樣的。剛剛在解答奧賽題的時候,由于人類標(biāo)注數(shù)據(jù)難度極大,X1模型會根據(jù)答案正確與否進行強化訓(xùn)練,數(shù)學(xué)這種有明確答案和結(jié)果的任務(wù),天然適配X1模型。
權(quán)哥:這方面的技術(shù)我們早有積累。比如我們提出的基于自我評價迭代的評語模型技術(shù),還有我們在數(shù)學(xué)答題領(lǐng)域提出的多路徑和反思迭代的強化學(xué)習(xí),在教育高考作文評分、數(shù)學(xué)教師助手中應(yīng)用了,o1-preview發(fā)布后,訊飛星火X1在1個月內(nèi)就跑通了關(guān)鍵的算法。不過將整個系統(tǒng)在國產(chǎn)化平臺上全面實現(xiàn),在數(shù)據(jù)構(gòu)建、框架調(diào)優(yōu)、模型驗證等各個方面都還有很多難題,雖然多花了不少時間和代價,但是很自豪我們都搞定了。
萬里:國產(chǎn)算力確實在單卡、集群、生態(tài)上都和國際領(lǐng)先水平有一定距離。在這種情況下,想訓(xùn)練出能和OpenAI模型掰手腕的深度推理模型是比較困難的,這個過程中有沒有遇到什么困難和問題?
想哥:星火大模型一開始就堅定地走全國產(chǎn)化路線,在這之前已經(jīng)完成了很多模型適配,但是X1訓(xùn)練又是一條新的技術(shù)路線,這里面訓(xùn)練和推理有非常強的交互,需要跨任務(wù)傳輸數(shù)據(jù)及模型權(quán)重,任務(wù)優(yōu)化總體目標(biāo)也由追求在線實時響應(yīng)變?yōu)殡x線高吞吐,這就要克服國產(chǎn)卡間互聯(lián)帶寬的短板。在這種復(fù)雜訓(xùn)練模式下,效率的影響因素也很多,后訓(xùn)練算力也直接飆升了一個數(shù)量級,所以我們馬不停蹄和華為啟動了合作攻關(guān),成效很明顯。說是攻關(guān),其實這個過程更像闖關(guān),我們沒有成功案例可以借鑒,只能一點點啃骨頭。
權(quán)哥: 最終我們的算法不僅在國產(chǎn)算力上成功適配了,而且端到端訓(xùn)練效率相比A卡,從剛開始的55%提升到了85%以上。因為訓(xùn)練框架基礎(chǔ)夯實之后,我們才能做出更好的深度推理模型。
萬里:有請華為昇騰計算業(yè)務(wù)研發(fā)總裁周斌和我們分享。
萬里:訊飛星火迄今仍然是我國全民開放可下載大模型中的唯一一個用國產(chǎn)算力訓(xùn)練出來的大模型,又是唯一一個在全國產(chǎn)算力上訓(xùn)練的深度推理模型,在國產(chǎn)算力上總要有人勇闖無人區(qū),還是為我們的團隊自豪的。
星火大模型布局就是“1+N”,1是底座大模型、N是賦能行業(yè)應(yīng)用,這次星火X1也會率先應(yīng)用落地到實際場景里。
在教育上,去年1024,依托星火大模型的最新進展,聯(lián)合中國教育科學(xué)研究院發(fā)布了基于“問題鏈”的高中數(shù)學(xué)智能教師助手,面向全國百個試點區(qū)域、聯(lián)合千名優(yōu)秀教研員和老師打造上萬個優(yōu)秀案例?,F(xiàn)在星火X1已經(jīng)部署在上述試點區(qū)域,來自北京、上海、合肥等地的教研員和老師均有體驗,大家的評價都很不錯。
老師們都說在解答一些高中數(shù)學(xué)的創(chuàng)新題目上,X1能一題多解,在教學(xué)知識關(guān)聯(lián)、拓展學(xué)生高階思維這些方面表現(xiàn)也很棒。前幾天,在北京試點區(qū)域?qū)n}研討的時候,北京八中有27年教齡的李雙平老師說,X1推理過程和思路更清晰,如果遇到新題目或者考試題,X1經(jīng)常會帶來很大幫助。
X1除了能幫助老師教學(xué),對于學(xué)生的學(xué)習(xí)也很有用??拼笥嶏wAI學(xué)習(xí)機依托人工智能國家隊,首創(chuàng)了AI 1對1個性化精準(zhǔn)學(xué),幫助孩子減負(fù)增效,受到了很多家長和孩子的喜愛,用戶凈推薦值持續(xù)保持行業(yè)第一,著名演員孫儷老師也成為了我們的產(chǎn)品代言人。
這次推出的深度推理模型X1,可以使得訊飛AI學(xué)習(xí)機對孩子學(xué)習(xí)的診斷和推薦指導(dǎo)更加精準(zhǔn),更好地對孩子進行因材施教,后續(xù)我們將會持續(xù)升級。
權(quán)哥: 目前我們X1模型策略在醫(yī)療領(lǐng)域已取得初步驗證成效,而且醫(yī)療也確實是一個非常適合深度推理模型的應(yīng)用場景。我們基于知識反思和思維鏈技術(shù),結(jié)合醫(yī)療循證推理技術(shù),構(gòu)建了醫(yī)療輔助推理能力的X1模型,??戚o助診斷和復(fù)雜病歷內(nèi)涵質(zhì)控的效果都達(dá)到了90%。
同時,我們已經(jīng)聯(lián)合華西發(fā)布了醫(yī)學(xué)大模型“華西黌醫(yī)”,顯著提升了復(fù)雜病歷內(nèi)涵質(zhì)控效果;聯(lián)合北京安貞醫(yī)院發(fā)布了心臟診斷大模型,為心血管疾病的輔診推理帶來了技術(shù)突破。我們計劃在今年上半年正式發(fā)布基于X1的醫(yī)療大模型升級版,在更大范圍為醫(yī)生提供更專業(yè)更高水平的輔助。
萬里:X1已經(jīng)在這些應(yīng)用領(lǐng)域上產(chǎn)生真實的價值了。大家在訊飛星火網(wǎng)頁端和APP端,搜索“深度推理模型X1”智能體,就能直接體驗效果了。未來我們對X1還有什么計劃和期待呢?
權(quán)哥: 首先,我們目前訓(xùn)練時間還不長,訓(xùn)練數(shù)據(jù)還不充分,隨著飛星二號的算力持續(xù)到位,以及行業(yè)落地帶來的飛輪效應(yīng),會加快X1模型的優(yōu)化迭代;其次,我們在模型結(jié)構(gòu)、強化學(xué)習(xí)算法上已經(jīng)有了不錯的思路和方案,因此我們對X1的效果進一步得到更大提升還是非常有信心的。另外,X1技術(shù)對星火底座模型也有很強的反哺作用,所以星火4.0 Turbo效果也提升了很多。
想哥:現(xiàn)在我們基礎(chǔ)已經(jīng)打牢了,國產(chǎn)算力水平也在不斷提升,會全力保障星火大模型持續(xù)進步。
萬里:相信我們的技術(shù)會應(yīng)用到更多場景里面去!
訊飛星火4.0Turbo全新升級
林鴻(產(chǎn)品經(jīng)理):看到X1對星火底座的助力和提升,相信大家也很關(guān)注底座最新的進展。
钖哥(星火軍團CTO):最近朋友圈很多人刷屏,訊飛得到了大模型中標(biāo)數(shù)量和中標(biāo)金額雙第一的成績,尤其是在能源、金融、汽車、運營商等領(lǐng)域,跟客戶構(gòu)建了很多的行業(yè)大模型,在剛需場景上共同打磨了近百個智能體應(yīng)用。這次星火4.0 Turbo的升級依然是緊貼用戶的剛需,圍繞著不同行業(yè)龍頭企業(yè)的落地訴求、C端用戶的真實反饋。大家關(guān)心的問題還是挺相似的,比如說“讓大模型支持更長的文本、理解更復(fù)雜的圖文、減少幻覺”、“能不能讓大模型對行業(yè)的理解能力上有更大的提升”等,這都是我們本次星火4.0 Turbo底座升級的重點方向。
泰哥(研究員):在去年10月24日,我們基于全國產(chǎn)算力訓(xùn)練的星火4.0 Turbo就已經(jīng)在各種真實任務(wù)的背靠背測試中超過了OpenAI的GPT4-Turbo。三個月之后,本次我們再次升級星火4.0 Turbo??梢钥吹?,相比去年10月24日的版本,新版本在知識問答、語言理解等能力上都得到了持續(xù)提升,我們的星火底座已全面對標(biāo)OpenAI 最新版的GPT-4o。特別要說明的是,在數(shù)學(xué)能力上,通過X1大規(guī)模數(shù)據(jù)合成以及基于長思維鏈的蒸餾技術(shù),使得數(shù)學(xué)能力絕對提升了10.5%,這將助力數(shù)學(xué)教學(xué)、金融分析和科研等工作再上一個新的臺階。
林鴻:在底座能力上,長文本也是用戶非常關(guān)注的一個能力,尤其是在一些嚴(yán)謹(jǐn)?shù)膱鼍跋?,比如企業(yè)知識問答,用戶對幻覺的容忍度幾乎為0,所以我們這次也升級了底座的長文本能力,行業(yè)首發(fā)句子級溯源。
泰哥:我們研發(fā)了基于智能體的全新長文本框架,除了進行超長注意力機制的優(yōu)化外,還利用大規(guī)模書籍?dāng)?shù)據(jù)、網(wǎng)頁數(shù)據(jù)等進行知識關(guān)聯(lián)式的數(shù)據(jù)合成,對模型進行增強式的訓(xùn)練,使得新版本長文本的知識回復(fù)錯誤率相對下降了40%,句子級溯源的整體效果也已經(jīng)超過GPT-4o。
钖哥:這兩年得益于與很多龍頭企業(yè)合作的機會,我們收集、整理了多個行業(yè)的海量高價值文本訓(xùn)練數(shù)據(jù),并針對行業(yè)應(yīng)用落地打磨了數(shù)十萬的高質(zhì)量行業(yè)場景SFT數(shù)據(jù)以及不少行業(yè)模型。這次星火4.0 Turbo在行業(yè)能力上也有明顯的提升,例如,金融領(lǐng)域知識問答絕對提升14%,油氣領(lǐng)域絕對提升了16%。
林鴻:除了對行業(yè)能力的需求之外,用戶對圖文識別的需求是非常迫切的,比如科研工作者需要閱讀的學(xué)術(shù)論文、老師們需要批閱的手寫作業(yè)、企業(yè)需要審核的蓋章合同等,都需要圖文能力,目前在業(yè)界也是巨大的挑戰(zhàn)。
泰哥:這次星火4.0 Turbo特別強化了復(fù)雜場景的圖文識別能力,從對比結(jié)果中能看出來,星火的圖文識別能力在眾多場景上超過了國內(nèi)外友商,有些場景顯著超越,我們的圖文識別能力已經(jīng)達(dá)到了國際領(lǐng)先水平。
钖哥:給大家看幾個例子,第一個是一個拍照的表格,這個表格上都沒有線,信息是很難理解的,且拍的有點傾斜,這是一個之前都解決不好的很難的場景??梢钥吹轿覀冏钚碌膱D文識別大模型已經(jīng)處理得很好,而友商處理的版面分析就直接錯了。
钖哥:第二個例子是一個手寫文字+公式的圖片,是一個試卷的手寫答案。手寫文字密密麻麻的,也沒有固定的版式。我們新的圖文識別大模型不僅理解了版式,而且把這么復(fù)雜的手寫數(shù)字、符號和公式都識別對了,也是顯著優(yōu)于競品。
钖哥:類似的難題還有很多,比如醫(yī)療的體檢報告經(jīng)常有復(fù)雜的長表格、法院的文書或?qū)W術(shù)論文里有很雜亂的版式和公式、企業(yè)合同里也會遇到印章手寫合同傾斜少線等等情況,圖文識別大模型在這類疑難雜癥問題提升了很多,效果更好了。
泰哥:很多用戶已經(jīng)很滿意我們的圖文識別效果,但也有用戶對效率提出更大的期許。為了響應(yīng)期待,我們還發(fā)布掃描文檔解析的極速版本,對文檔的理解速度提升了10倍,大大縮短了處理大量行業(yè)文檔、構(gòu)建私域知識庫的時間。
钖哥:在與各行業(yè)用戶探索大模型落地的場景過程中發(fā)現(xiàn),大家無論是做戰(zhàn)略規(guī)劃、行業(yè)調(diào)研,還是制定市場策略,花費了大量時間在查找資訊和整理材料上。得益于圖文、行業(yè)、長文本等能力的提升,我們首發(fā)混域搜索技術(shù),無論個人知識、企業(yè)知識、行業(yè)報告、還是互聯(lián)網(wǎng)信息,提問一次可以拿到綜合搜索后的結(jié)果,這樣信息搜索和整理的效率會大大提升,結(jié)合長文本首發(fā)的句子級別的溯源,可以讓大家對問答的結(jié)果更放心。給大家看個演示。
林鴻:這些能力可以在訊飛星火網(wǎng)頁端和APP端體驗,希望能給大家?guī)砀嗟膸椭蛦l(fā),在工作中找到更多場景盡情釋放星火大模型的多維智慧。
此外,深受用戶喜歡幫助大家做PPT制作的訊飛智文、助力新媒體工作者效率提升的訊飛繪文也同步上新,歡迎大家多多使用,多多反饋。
首發(fā)星火語音同傳大模型
晨璇(產(chǎn)品經(jīng)理):和大家分享科大訊飛在機器翻譯方面的最新進展。本次發(fā)布的星火語音同傳大模型,是國內(nèi)首個具有端到端語音同傳能力的模型??拼笥嶏w在跨語言溝通上,一直期望為用戶提供最先進的技術(shù)支持和產(chǎn)品體驗。
亞楠(研究員):訊飛是率先通過全國翻譯專業(yè)資格考試的機器翻譯系統(tǒng),在最近的連續(xù)3屆國際口語機器翻譯比賽中獲得了冠軍。本次發(fā)布的端到端語音同傳大模型不僅能夠滿足日常對話場景的需求,也在商務(wù)交流和行業(yè)翻譯上取得了明顯的進步。
晨璇:這次發(fā)布的關(guān)鍵詞是“端到端的語音同傳”,同聲傳譯在翻譯界也是困難的工作模式。業(yè)界覺得怎么樣才算得上高質(zhì)量同傳呢?我們邀請上海外國語大學(xué)高翻學(xué)院張愛玲院長,來跟我們分享一下她的看法。
晨璇:張院長分享了同傳工作中的幾個關(guān)鍵維度,“內(nèi)容完整性”“信息準(zhǔn)確性”“語言質(zhì)量”和“溝通效果”。在機器同傳的場景下,同傳時延也是影響溝通效果的一個重要指標(biāo)。講到這里,一起來試試訊飛星火語音同傳大模型。
境廷(產(chǎn)品經(jīng)理):我手上這臺訊飛翻譯機集成了最新的同傳技術(shù),一月特別適合去新西蘭,晨璇來扮演一下當(dāng)?shù)氐膶?dǎo)游,介紹一下眼前的風(fēng)景吧。
境廷:有了星火同傳翻譯,在國外旅游時,就可以一邊看風(fēng)景,一邊聽當(dāng)?shù)貙?dǎo)游的中文介紹。
晨璇:但這種旅游場景還是挺簡單的。這次重磅升級的星火語音同傳大模型,可以再試試更難的內(nèi)容。
境廷:我們有一位用戶是做建材出口的,他經(jīng)常在展會這種比較嘈雜的環(huán)境上介紹產(chǎn)品,我現(xiàn)在把翻譯機連上藍(lán)牙音箱,來扮演一下這位用戶,你們作為海外客戶,感受一下。
晨璇:這種專業(yè)場景下,機器同傳很快,而且準(zhǔn)確率也很高,再連接音箱的話,也完全能支持一個小型會議的同傳了。
境廷:而且翻譯機本身還有記錄功能,用戶可以事后隨時回溯對話內(nèi)容,整個商談過程的關(guān)鍵信息都不會有任何遺漏。除了音箱,我們的翻譯機還可以搭配很多其他的配件,比如連上藍(lán)牙耳機,在工廠參觀或者在項目現(xiàn)場考察,有同傳加持,我們就可以邊走邊聊了。
晨璇:同傳譯員在練習(xí)同傳時,在雙語能力基礎(chǔ)上,要訓(xùn)練聽力、記憶力、心理素質(zhì),還需要了解各行各業(yè)的知識,有句話叫“You should know something about everything”。那訊飛星火同傳大模型是怎么做到的語音同傳的呢?
亞楠:十年前訊飛就想做語音同傳,但發(fā)現(xiàn)技術(shù)太難了?,F(xiàn)在大模型能力的發(fā)展,結(jié)合訊飛在智能語音技術(shù)上的獨特算法積累,我們終于可以做端到端的語音同傳。本次發(fā)布的星火語音同傳大模型,是一個模仿人類同傳譯員的思維鏈路來訓(xùn)練的模型,在聽到聲音后進行實時意群理解和切分,結(jié)合上下文語境精準(zhǔn)選詞,并進行碎片化信息的重組。
晨璇:這類似同傳工作中所謂的“順句驅(qū)動”原則,比如有句話 “I went to iFLYTEK for a seminar at 10 o'clock yesterday”,你們怎么翻譯?
亞楠:按照全句翻譯是“昨天十點,我去訊飛參加了一場研討會”,如果機器按意群直譯,就是“我去訊飛,為了一場研討會,在10點,昨天”。用大模型的生成能力做信息重組,就變成“我去了訊飛,去參加一場研討會,時間是昨天上午十點”。既滿足同傳延遲,又保證句意準(zhǔn)確傳達(dá)。
亞楠:我們的流式合成技術(shù)會進行意群韻律銜接,并根據(jù)源語速自適應(yīng)的調(diào)節(jié)合成語速。另外還會根據(jù)源語種和翻譯語種的時長差距,向大模型反饋信息,實時調(diào)整譯文的精煉度。這樣一來整個翻譯系統(tǒng)就可以流暢地運行起來。
晨璇:那目前整體的效果怎么樣?
亞楠:國外幾個主流的大模型以交傳為主,這里展示的是我們的同傳系統(tǒng)和國外交傳系統(tǒng)的對比。在內(nèi)容完整度、信息準(zhǔn)確度以及語言質(zhì)量等幾個維度,效果都超過了國外的幾個主流大模型。而且我們的同傳系統(tǒng)還支持不同的時延模式,最快可以做到5s以內(nèi)。
亞楠:聽演講,聽報告,大型會議的時候,語音到文字的同傳也是非常實用的,隨著這次同傳大模型的技術(shù)升級,也帶來了各場景的技術(shù)進步,我們?nèi)诞a(chǎn)品的翻譯能力都有提升。
境廷:在翻譯機的應(yīng)用上,我們整體翻譯能力的升級也一定能讓春節(jié)期間全家出游或者跨國探親的朋友們有更好的體驗!當(dāng)然,針對語音到語音的同傳場景,我們的翻譯機將會配置耳機、音箱、麥克風(fēng),在今年推出商務(wù)套裝,滿足不同商務(wù)洽談場景使用。對于需要同傳的專業(yè)合作伙伴,訊飛同傳也限量開放了星火語音同傳大模型的功能入口,您也可以掃描二維碼申請試用!
以上就是本次訊飛星火大模型升級發(fā)布的全部內(nèi)容。
-
華為
+關(guān)注
關(guān)注
216文章
35212瀏覽量
255967 -
科大訊飛
+關(guān)注
關(guān)注
19文章
841瀏覽量
62467 -
大模型
+關(guān)注
關(guān)注
2文章
3147瀏覽量
4080
原文標(biāo)題:全程回顧:訊飛星火大模型1月15日升級發(fā)布
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論