時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

血戰DeepSeek,OpenAI o3-mini急上線!

2025-02-01 09:13:26

新智元報道

編輯:編輯部 HYZ

【新智元導讀】眼看DeepSeek風頭盡顯,被逼急的OpenAI果然緊急釋出了o3-mni。不光免費使用者都能用,每百萬輸入和輸出token價格更是瘋狂跳水打骨折價!

o3-mini,真的來了。

剛剛,OpenAI官宣o3-mini和o3-mini-high兩大版本正式在ChatGPT上線。

誠如所言,免費使用者直接開啟「Reason」即可體驗,Plus使用者每天會有更多用量,具體來說:

- ChatGPT免費版:首次體驗推理模型

- ChatGPT Plus和團隊版:每天150次對話限制

- ChatGPT Pro:無限制訪問

- ChatGPT Enterprise和ChatGPT Edu:將在一週內可用

- API:向3-5級開發者開放(初期暫不支援影象分析功能)

- 輸入1.10美元/百萬token、輸出4.40美元/百萬token

感謝DeepSeek,o3-mini的價格這次算是徹底給打下來了——比OpenAI o1-mini便宜63%,比滿血版o1便宜93%。(但仍是GPT-4o mini的7倍左右)

訂閱使用者已經在第一時間「告別」了o1-mini,還沒來得及說再見

OpenAI表示,o3-mini的釋出是在追求高效能智慧技術道路上的又一重要里程碑。

透過最佳化科學(Science)、技術(Technology)、工程(Engineering)和數學(Mathematics)領域的推理能力,同時保持較低的成本,讓高質量AI技術變得更加平易近人。

值得一提的是,在ChatGPT中,o3-mini採用的是「中等推理強度」,在速度和準確性之間取得平衡。所有付費使用者還可以在模型選擇器中選擇o3-mini-high——響應時間略長但智慧水平更高的版本。

目前,由於太過火爆,ChatGPT的專案和自定義GPTs功能都已經被擠崩了。

整合搜尋,兩種版本可選

去年12月,。相較於上一代o1模型,o3在ARC-AGI等多項基準測試中重新整理SOTA。

與o1-mini一樣,o3-mini是最具價效比的推理模型,可謂是突破效能邊界的「小巨人」。

在STEM領域,尤其是科學、數學和程式設計等方面,o3-mini效能表現卓越超越o1,並繼承了上一代低成本和低延遲的優點。

對於開發者來說,o3-mini簡直就是一份「大禮包」,它首次在小型推理模型中支援:包括函式呼叫、結構化輸出和開發者訊息、流式傳輸功能。

開發者可以根據需求選擇低、中、高三種推理強度,讓o3-mini在處理複雜問題時進行「深度思考」,靈活平衡速度和準確性。

遺憾地是,o3-mini暫不支援視覺功能。

如前所述,從今天起,o3-mini將透過Chat Completions API,Assistants API和Batch API向3-5級指定開發者開放。

同時,o3-mini還整合了搜尋功能,能夠提供帶有相關網路來源連結最新響應。

一起來看看這款「小而美」的o3-mini有什麼過人之處。

快速、強大、專為STEM領域推理最佳化

與其前身OpenAI o1類似,OpenAI o3-mini專門針對STEM推理進行了最佳化。

採用了中等推理強度的o3-mini,在數學、程式設計和科學領域的表現與o1不相上下,且響應速度更快。

報告地址:https://cdn.openai.com/o3-mini-system-card.pdf

專家測試評估顯示,o3-mini相比o1-mini能夠生成更準確、更清晰的答案,推理能力更強。

在測試中,o3-mini的響應結果獲得了56%的偏好度,在處理複雜現實問題時的重大錯誤率更是降低了39%。

在中等推理強度設定下,o3-mini在最具挑戰性的推理和智慧評估專案(包括AIME和GPQA)中,均達到了與o1相當的水平。

數學競賽(AIME 2024)

在低推理強度下,o3-mini達到了與o1-mini相當的水平;在中等推理強度下,其表現可與o1媲美;而在高推理強度下,o3-mini的表現更是超越了o1-mini和o1。

博士級科學問題(GPQA Diamond)

研究級數學(FrontierMath)

在高推理強度模式下,o3-mini在FrontierMath中的表現優於前代產品。當配合Python工具使用時,高推理強度的o3-mini能夠一次性解決超過32%的測試題目,其中包括28%以上的T3級問題。

程式設計競賽(Codeforces)

隨著推理強度的提升,OpenAI o3-mini的Elo得分不斷提高,各層級表現均優於o1-mini。在中等推理強度下,其表現已能與o1相媲美。

軟體工程(SWE-bench Verified)

o3-mini在高推理強度模式下,使用開源Agentless框架能達到39%的成功率,使用內部工具框架則可達到61%的成功率。

LiveBench編碼

人類偏好評估

外部專家評測結果顯示,o3-mini較o1-mini表現出更強的推理能力,能夠生成更準確、更清晰的答案,尤其是在STEM領域中。在對比測試中,o3-mini獲得了56%的使用者偏好度,且在處理複雜現實問題時的重大錯誤率降低了39%。

在技術報告中,o3-mini程式設計效能超越了GPT-4o和o1-preview,與o1不相上下。

模型的速度與效能

o3-mini在保持與o1相當智慧水平的同時,實現了更快的執行速度和更高的計算效率。

除前文提到的STEM評估外,在中等推理強度下,o3-mini在其他數學能力和事實準確性測試中均取得了顯著優勢。

對比測試(A/B Testing)結果顯示,o3-mini的平均響應時間為7.7秒,較o1-mini的10.16秒提升了24%。

o1-mini和o3-mini(medium)的延遲對比

安全評估

OpenAI在訓練o3-mini確保其安全響應,採用的關鍵技術之一是審慎對齊(deliberative alignment)。

這項技術使模型能夠在響應使用者提示詞前,對人工制定的安全規範進行全面推理。

與o1相似,o3-mini在高難度安全性測試和越獄評估中,明顯優於GPT-4o。

在正式部署前,研究人員採用與o1相同的準備方法,結合外部紅隊測試和安全性評估,對o3-mini的安全風險進行了全面評估。

禁止內容評估

越獄評估

OpenAI急了

去年年底放出o3和o3-mini的預覽時,CEO奧特曼就曾表示,o3-mini將會在1月份釋出。

隨後,奧特曼又在1月17日預告稱,o3-mini會在幾周內釋出。

現在,o3-mini果然如約而至(卡在ddl最後一天),但外面的世界已經是天差地別。

面對正在快速崛起的DeepSeek-R1,o3-mini存在著一個關鍵問題——「不開源」。

這也就意味著,它無法離線使用、無法下載程式碼,也無法以相同的程度進行自定義。對於很多應用過來說,它的吸引力相對於R1明顯大打折扣。

在上下文視窗方面,DeepSeek-R1約為128K/130K token,而o3-mini略勝一籌達到了200K token。其中,每個輸出最多100K token,跟滿血版o1相同。

在價格方面,相比於輸入/輸出token分別為0.14/0.55美元的DeepSeek-R1,o3-mini依然貴出了天際。

但作為一款美國模型,o3-mini在身份上無疑佔盡了好處:應該會是歐美很多企業的首選。

奧特曼親自率隊

這一次,最強最新的o3-mini模型訓練,奧特曼本尊下場親自率隊。研究專案主管分別是Carpus Chang和Kristen Ying。

接下來,如果說OpenAI還藏在什麼殺手鐧,那就是滿血版的o3了。 根據12月時的說法,它將在「此後不久」釋出。

參考資料:

https://openai.com/index/openai-o3-mini/

https://openai.com/index/o3-mini-system-card/

熱門資訊
  • Rapidus將於12月接收首臺EUV光刻機,ASML計劃在當地設立服務中心提供支援 | 2024-11-19 04:29:16
  • LeCun 的世界模型初步實現!基於預訓練視覺特徵,零樣本規劃 | 2024-11-19 04:43:02
  • 下一代Wi-Fi 8標準要來了! | 2024-11-19 04:58:29
  • 比克電池分享高容量圓柱電池研發進展,2170電芯容量向6.5Ah發起挑戰 | 2024-11-19 05:26:02
  • M4 Max在Blender GPU基準測試中落後RTX 4090近30% 但超越RTX 4070和3080 Ti | 2024-11-19 06:20:08
  • 臺積電先進製程:加速赴美,10座工廠同時開建 | 2024-11-19 06:25:13
  • 6G 最強悍的特性,竟提前被這些手機廠商用上! | 2024-11-19 06:25:17
  • 諾獎得主巴里·馬歇爾來到廣雅,他給了學子這些建議 | 2024-11-19 06:31:43
  • Genome Biol | 腺嘌呤鹼基編輯器引發小鼠胚胎和人類T細胞脫靶結構變異:基因編輯安全性再引關注 | 2024-11-19 06:35:31
  • 蘋果、三星牢牢佔據前二,Q3全球個人音訊裝置報告出爐 | 2024-11-19 06:41:19
  • 北京中電科衛星導航系統有限公司取得基於射頻微波的高效加熱腔專利,使防護頂板的拆卸更加便利 | 2024-11-19 06:46:21
  • 華為之泉,湧入開源事業的大江大河 | 2024-11-19 06:52:09
  • 陳子斌教授團隊《Acta Materialia》:增材製造高強度、高塑性異質多梯度TiAl合金 | 2024-11-19 06:53:06
  • 海航技術福州維修基地高效完成飛機發動機更換工作 | 2024-11-19 06:58:08
  • 更具趣味:蘋果 tvOS 18.2 Beta 3 新增史努比屏保 | 2024-11-19 07:02:17
  • 訊息稱蘋果 Apple TV+ 計劃開放電影授權:探索新收入來源 | 2024-11-19 07:20:26
  • 小米汽車單季收入近百億 回應虧損與產能 | 2024-11-19 07:34:21
  • 下一個十億美元大藥 | 2024-11-19 07:34:28
  • Sci Immunol | 馬春紅團隊揭示靶向TIM-3棕櫚醯化-腫瘤免疫檢查點治療的新方式 | 2024-11-19 07:36:21
  • 首個國產原研Bcl-2抑制劑上市申請獲受理 | 2024-11-19 07:36:22
  • “超級細菌”危機迫在眉睫,如何行動以降低無藥可用風險? | 2024-11-19 07:50:38
  • 中央空管委將在六個城市開展eVTOL試點 | 2024-11-19 07:53:32
  • 海盜船推出適用於蘋果 Mac 的 K65 Plus 遊戲鍵盤和 M75 無線滑鼠 | 2024-11-19 08:07:12
  • 日媒:中國在量子技術領域存在感日益突出 | 2024-11-19 08:23:16
  • SPARKLE 撼與釋出單槽 Arc A310 Omni View 顯示卡:4 個 HDMI 埠 | 2024-11-19 08:25:13
  • 蘋果向開發者推送tvOS 18.2 Beta3 新增史努比屏保 | 2024-11-19 09:02:51
  • 國產大模型獨角獸,困在光環裡 | 2024-11-19 09:07:57
  • 電池容量大了iPhone快一倍,今年國產手機咋突然悟了? | 2024-11-19 09:08:00
  • 谷歌搜尋被判壟斷,將被美國司法部勒令出售Chrome瀏覽器 | 2024-11-19 09:08:04
  • 趙明回應榮耀AI換臉檢測功能下放:儘快升級更多機型 | 2024-11-19 09:24:36
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們