67194手机在线看 localhost,欧美一区二区自偷自拍视频,91在线精品播放

當前位置:首頁 > 今日頭條 >

Kimi發布全新推理模型,數學能力可對標o1系列

發布時間:2024-11-17 13:56:18  |  來源:投資界  |  閱讀量:10101  |  

2024年11月16日,通用人工智能創業公司—— Kimi 正式發布新一代數學推理模型 k0-math。這是Kimi 推出的*推理能力強化模型,在多項基準能力測試中,k0-math 的數學能力可對標全球*的 OpenAI o1 系列可公開使用的兩個模型:o1-mini和o1-preview。在中考、高考、考研以及包含入門競賽題的MATH等 4 個數學基準測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。在兩個難度更大的競賽級別的數學題庫 OMNI-MATH 和 AIME 基準測試中,k0-math 初代模型的表現分別達到了 o1-mini 最高成績的 90% 和 83%。

接下來,k0-math 模型會持續迭代,提升更難題目的解題能力,挑戰數學模型的能力極限。

“AI 領域正在經歷新一輪技術范式的變化。基于強化學習、合成數據和思維鏈的新技術,可以解決高質量數據缺乏的問題,將提升 AI 在各個領域和場景的推理能力和智能水平上限。”Kimi創始人楊植麟博士表示,“這不僅意味著,在編碼、搜索等用戶更日常的任務上,更強大的推理能力,將會幫助每個用戶解鎖更多有挑戰性的工作任務,而且在數學、物理、生物、化學等基礎科學領域,很多尚未被解決的難題都有機會迎來破解的機會。”

Kimi 數學模型 k0-math 對標 o1 系列

今天Kimi 發布的 k0-math 模型采用了全新的強化學習和思維鏈推理技術,帶來更強的數學推理能力,通過模擬人腦的思考和反思過程,大幅提升了解決數學難題的能力,可以幫助用戶完成更具挑戰性的數學任務 。

在中考、高考、考研以及包含競賽題的MATH等數學基準測試中,k0-math 初代模型成績已經超過o1-mini和o1-preview模型。其中,在業界最常使用的數學能力基準測試 MATH 中,k0-math 模型得分 93.8,超過 o1-mini 的 90 分和 o1-preview 的 85.5 分。k0-math 這一成績僅次于o1 完全版的 94.8 分——該模型尚未正式上線,還無法公開測試。

常規模型的關鍵目標是盡快提供答案。與之不同,在做題過程中,k0-math 模型會花更長的時間來推理,包括思考和規劃思路,并且在必要時自行反思改進解題思路,提升答題的成功率。k0-math 的解題思考過程,常常會讓數學高手也受到啟發。以下面這道AIME 競賽題目為例,k0-math 模型通過不斷探索和試錯,經歷了八九次失敗,意識到自己之前用了過于復雜的方法,最終得出了正確結果。

不過,需要注意的是,k0-math 模型雖然擅長解答大部分很有難度的數學題,但是當前版本還無法解答 LaTeX 格式難以描述的幾何圖形類問題。此外,它還有一些局限性需要突破,包括對于過于簡單的數學問題,例如1+1=?k0-math模型可能會過度思考,對于高考難題和IMO題目依然有一定概率做錯、猜答案,以及需要更好的泛化,才能在更多學科的場景中落地使用。

這些局限性既是機遇,也是挑戰,預計將在下一階段的模型迭代中逐步得到改善。

Kimi探索版上線“意圖增強”等三大推理能力

新的強化學習技術范式帶來的推理能力提升,也將會泛化到更多日常任務上。10月中旬上線的 Kimi 探索版,將推理能力運用到 AI 搜索任務上,通過模擬人類的推理思考過程,多級分解復雜問題,執行深度搜索,并即時反思改進結果,幫助用戶更高效地完成復雜的搜索調研任務。

Kimi 探索版的搜索量是普通版的 10 倍,一次搜索即可精讀超過 500 個頁面。在信息調研和分析場景的真實長難搜索問題測試中,Kimi 探索版回答準確性和完整性具備全面優勢,綜合性能超過同類產品至少 30%。Kimi 探索版發布后,受到了程序員、科學家、咨詢顧問、投資人、律師等專業人群的喜愛。

最近,Kimi 探索版運用強化學習技術創新搜索體驗,在三大推理能力上實現突破:意圖增強、信源分析和鏈式思考。

意圖增強:Kimi 探索版可以將抽象的問題和模糊的概念具體化,拓展用戶的真實搜索意圖。例如,當互聯網產品經理調研某產品的用戶忠誠度,Kimi 探索版會思考當用戶搜索“忠誠度”時,本質上是想做數據的分析,然后找到可以體現忠誠度的維度,將這個比較模糊和抽象的概念,轉化為更加具體的“活躍度、留存率、使用頻率、使用時長”等關鍵詞,然后通過機器更擅長的海量并行搜索,查找更全面和準確的答案。

鏈式思考:Kimi 探索版可以更好地基于思維鏈推理能力處理產品、公司、行業等研究問題。例如,當程序員做技術選型,想要了解“react中有哪些狀態管理庫,*用的是什么”。Kimi 首先會拆解問題,找到react的狀態管理庫有哪些,然后分別搜索每個狀態管理庫的優缺點、使用場景和推薦理由,最后分析總結找到的所有高質量信息,推薦一個最適合大多數情況的狀態管理庫和理由。

與更多用戶共創智能

最新數據顯示,2024年10月 Kimi智能助手在PC網頁、手機APP、小程序等全平臺的月度活躍用戶已超過 3600 萬。

接下來,k0-math 數學模型和更強大的 Kimi 探索版,將會分批陸續上線 Kimi 網頁版和Kimi智能助手APP,幫助用戶解決更有挑戰的數學和搜索調研類任務,

“除了技術的不斷變革,通往 AGI 的過程也是 Kimi 與用戶通過產品互動共創的過程。”Kimi創始人楊植麟博士表示,“實際上,我們已經把產品當成一個強化學習的環境,模型在這個環境里跟用戶交互,讓技術、產品和用戶體驗都能持續變得更好,為用戶創造更大的價值。”


上一條:金融監管總局批復:同意吸收合并!
下一條:返回列表

聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多企業信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險,需謹慎。

          主站蜘蛛池模板: 玛纳斯县| 平顺县| 西安市| 桦南县| 武威市| 来安县| 甘洛县| 中西区| 乌审旗| 瑞丽市| 江口县| 怀宁县| 如皋市| 临桂县| 台山市| 上栗县| 永新县| 从江县| 上饶市| 武宁县| 福安市| 丹棱县| 海南省| 金溪县| 叙永县| 微山县| 邵阳市| 彝良县| 建瓯市| 遂川县| 大兴区| 门源| 潞西市| 太和县| 子洲县| 彰化市| 娄底市| 乌拉特中旗| 和平县| 襄城县| 永胜县|