昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動(dòng)邀請(qǐng)測(cè)試
2024-11-27 11:19 互聯(lián)網(wǎng)
今天,昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。
Skywork o1是由昆侖萬維集團(tuán)的具有慢思考推理能力的系列模型。這是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計(jì)劃、反思等能力,同時(shí),該開源模型在標(biāo)準(zhǔn)評(píng)測(cè)集上,對(duì)比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團(tuán)隊(duì)復(fù)現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準(zhǔn)測(cè)試集上成為生態(tài)位SOTA。
此次的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強(qiáng)的版本:
1,Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態(tài)位開源模型中評(píng)測(cè)指標(biāo)大幅提升達(dá)到SOTA水平,并解鎖了許多輕量級(jí)模型無法解決的復(fù)雜數(shù)學(xué)。該模型的也將幫助加速國內(nèi)開源社區(qū)復(fù)現(xiàn)o1的進(jìn)程。
2,Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數(shù)學(xué)、中文邏輯和推理類問題上表現(xiàn)突出。
3,Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對(duì)比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質(zhì)量的推理。
其中,我們開源的Skywork o1 Open,在各項(xiàng)數(shù)學(xué)和代碼指標(biāo)上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時(shí),8B的Skywork o1 Open也解鎖了很多較大量級(jí)模型,如GPT 4o,無法完成的數(shù)學(xué)推理(如24點(diǎn)計(jì)算)。這也為推理模型在輕量級(jí)設(shè)備上提供了可能性。
同時(shí),我們也將開源兩個(gè)推理的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對(duì)整個(gè)模型回答進(jìn)行打分,Skywork o1 Open-PRM能給模型回答中的每個(gè)步驟進(jìn)行打分。
對(duì)比開源社區(qū)現(xiàn)有的PRM,Skywork o1 Open-PRM-1.5B能達(dá)到開源社區(qū)8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時(shí)在大部分benchamrk上接近/超過10倍量級(jí)的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎(chǔ)模型,使用不同PRM在數(shù)學(xué)和代碼評(píng)測(cè)集上的評(píng)估結(jié)果。
除Skywork-o1-Open-PRM外,其他開源PRM均未針對(duì)代碼類進(jìn)行專門優(yōu)化,故不進(jìn)行代碼的相關(guān)對(duì)比。
詳細(xì)技術(shù)報(bào)告也將在不久后。目前模型和相關(guān)介紹在Huggingface開源(開源地址:https://tinyurl.com/skywork-o1)
強(qiáng)推理以及自我反思的能力是如何練成的?
Skywork o1在邏輯推理上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案:
1,推理反思能力訓(xùn)練:通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗(yàn)證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。,
2,推理能力強(qiáng)化學(xué):團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明Skywork-PRM可有效的捕捉到復(fù)雜推理中間步驟和思考步驟對(duì)最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。
3,推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開。Q*算法落地也提升了模型線上推理能力。
關(guān)于天工 Q*算法,更多詳情可見:https://arxiv.org/abs/2406.14283
亮點(diǎn)功能與實(shí)測(cè)
Skywork o1模型具有以下能力和亮點(diǎn)功能:
1,模型思考和規(guī)劃能力
2,模型自我反思能力
3,模型自我驗(yàn)證能力
相較于此前(長文本)大模型,無論是常識(shí)推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉(zhuǎn)彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復(fù)雜問題、思考反思過程、輸出答案質(zhì)量上均有大幅提升。
首先,我們拿一道「2024年全國碩士研究生入學(xué)統(tǒng)一考試數(shù)學(xué)(一)試題」考考它(如下圖所示),測(cè)試一下它的“智力水平”。
面對(duì)難度不小的最新考研數(shù)學(xué)題,Skywork o1 Preview盡管花費(fèi)了一些時(shí)間,但還是一步步推理出了正確結(jié)果。
那么,之前大模型經(jīng)常翻車的比大小問題,Skywork o1現(xiàn)在的回答水平如何了?
從它的思考過程可以看出,Skywork o1的模型思考和規(guī)劃能力大幅提升。這個(gè)解題邏輯非常像人類的思考方法了,“如果整數(shù)部分相同,那么就要開始比較小數(shù)部分了”。通過嚴(yán)謹(jǐn)?shù)耐评磉^程,準(zhǔn)確得出8.8大于8.11,且多給出了一步差值計(jì)算。
此外,模型自我反思能力和自我驗(yàn)證能力也都有長足進(jìn)步。Skywork o1可以準(zhǔn)確識(shí)別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,還可以給出后續(xù)對(duì)話。
盡管我們讓它回答存在中文讀音“陷阱”的問題——“請(qǐng)將qíng rén yǎn lǐ chū xī shī轉(zhuǎn)換為中文”,它也沒有被我們繞進(jìn)去。充分展示了中文邏輯問題思考中的反思能力,它主動(dòng)發(fā)現(xiàn)了“西詩”是不對(duì)的說法,而是“西施”。
同樣的,對(duì)于之前的大模型來說,“算24點(diǎn)”的游戲很容易把模型搞崩潰了,但是對(duì)于Skywork o1來說,可謂是小菜一碟。它不僅給出了正確答案,是它在過程中進(jìn)行了「自我驗(yàn)證」。它在計(jì)算過后,又檢查了一遍,確認(rèn)過程和答案全部符合命題要求,才給出最終答案。
除了上述給出的數(shù)學(xué)推理、比大小、中文邏輯以及24點(diǎn)計(jì)算的外,Skywork o1在其他復(fù)雜的場(chǎng)景也有較好表現(xiàn):
競賽數(shù)學(xué):Skywork o1拿到2024 AIME第一題(如下圖所示),也從容應(yīng)對(duì)。計(jì)算邏輯清晰、公式展示流暢,計(jì)算時(shí)長也明顯具有優(yōu)勢(shì)。
密碼解密:在復(fù)雜密碼解密中,Skywork o1擁有強(qiáng)大的自我探索和推理能力。
在已知「原文→密文」的前提下,經(jīng)過一系列復(fù)雜推理后成功給出答案(如下圖所示)。
如果反過來呢?已知一段「密文→原文」,能否找出新密文所對(duì)應(yīng)的原文。Skywork o1表示小菜一碟。
智力:在復(fù)雜的中文推理問題上,Skywork o1表現(xiàn)優(yōu)異,并給出了完整的思考鏈路。
最后,再讓我們?cè)俳o他出一些有趣的“弱智”問題,來看看它的回答是不是合理。
1,為什么我爸媽結(jié)婚的時(shí)候沒邀請(qǐng)我參加婚禮?
2,被門夾過的核桃,還能補(bǔ)腦嗎?
3,午餐肉,我可以晚上吃嗎?
令人驚喜的是,Skywork o1不但沒有被問題繞進(jìn)去,還的頭頭是道,甚至透露出“大智慧”,引申出了一些更底層的思考。
進(jìn)階版的復(fù)雜人類思考能力的解鎖也將進(jìn)一步在垂類領(lǐng)域增強(qiáng)大模型的應(yīng)用,例如:
1,中英文常見邏輯推理和復(fù)雜,如數(shù)學(xué)/代碼類,科學(xué)研究
2,高質(zhì)量內(nèi)容生成,如創(chuàng)意寫作,行業(yè)報(bào)告寫作
3,深度搜索,解鎖復(fù)雜搜索的拆解
2024年以來,昆侖萬維天工AI持續(xù)進(jìn)化,陸續(xù)了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式的「天工大模型4.0」 o1版(Skywork o1),不僅是我們“All in AGI 與 AIGC” 的重要,更是我們構(gòu)建AI技術(shù)棧的重要一步。我們將秉持“實(shí)現(xiàn)通用人工智能,讓每個(gè)人更好地塑造和表達(dá)自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。
廣告
- 半年?duì)I收近40億!喜臨門憑什么逆勢(shì)盈利超2
- Bit.com 交易所年底推出雙重優(yōu)惠活動(dòng),總獎(jiǎng)
- 中航重機(jī):子公司安飛公司受托管理安虹公司
- 首批浮動(dòng)費(fèi)率基金成立一周年 中歐時(shí)代共贏
- Analytic Partners勘訊咨詢榮獲 Gartner?《
- 榮耀時(shí)刻!誠享東方董事長陳誠榮獲2024胡潤
- 機(jī)器視覺軟件迎來黃金期,中國機(jī)器視覺公司
- 中國國產(chǎn)13價(jià)肺炎結(jié)合疫苗首次出口印度
- “這個(gè)雪季我包了!”長白山高梵kids滑雪節(jié)
- 杰克科技全球戰(zhàn)報(bào):連續(xù)14年全球第一,“雙
- 金榮中國黃金交易所正規(guī)性驗(yàn)證:給投資者的實(shí)
- 三生(中國)承辦第七屆國際食源肽研討會(huì)
- 數(shù)字貿(mào)易出海盛典圓滿落幕:3600位精英齊聚,
- 中國汾酒,世界共賞:SCWC國際大會(huì)上的東方美
- 云集2024年Q3財(cái)報(bào),營收8660萬,探尋企業(yè)發(fā)展
- Q3交付同比增超50%,路特斯三季度營收2.5億美
- 寒冬中的火熱,嚴(yán)一集團(tuán)門窗生產(chǎn)重點(diǎn)項(xiàng)目全力
- 中國五常超越日本越光,金龍魚五;卦愕
- 第十四屆中國國際商標(biāo)品牌節(jié)在西安舉行
- IFF第21屆全球年會(huì) 全球金融市場(chǎng)新挑戰(zhàn):金融