速度放緩！OpenAI新旗艦模型進步幅度沒那麼大

11月11日訊息，儘管使用聊天機器人ChatGPT等人工智慧產品的人數在激增，但支撐這些技術的底層模組的改進速度似乎正在放緩。為此，ChatGPT的開發者OpenAI正在開發新技術，以增強大語言模型等核心模組，從而應對這一挑戰。

OpenAI即將推出的旗艦模型“獵戶座”（Orion）所面臨的挑戰突顯了公司當前遇到的難題。今年5月，OpenAI執行長薩姆·奧特曼（Sam Altman）在內部透露，他預計正在訓練中的獵戶座將顯著優於一年前釋出的上一代旗艦模型。據知情人士稱，儘管獵戶座的訓練進度僅完成20%，但其智慧和任務完成能力已與GPT-4不相上下。

不過，一些使用或測試過獵戶座的OpenAI員工表示，儘管其效能確實超越了前代模型，但提升幅度遠不及從GPT-3到GPT-4的躍升。一些研究人員指出，獵戶座在處理特定任務時未必穩定優於前代模型。一位員工表示，獵戶座在語言任務上表現出色，但在編碼等任務中可能不如之前的模型。這種情況可能會帶來問題，因為與OpenAI近期釋出的其他模型相比，獵戶座在資料中心的執行成本更高。

獵戶座的表現正在考驗人工智慧領域的核心假設——縮放定律，即只要資料量和計算能力持續增加，大語言模型就能不斷改進。面對GPT改進速度放緩帶來的挑戰，業界似乎正將重點轉向初始訓練後的模型最佳化，這可能會產生一種新的縮放定律。

Facebook母公司Meta執行長馬克·扎克伯格（Mark Zuckerberg）在內的一些科技領袖認為，即使在技術未能進一步突破的最壞情況下，基於當前技術仍然有很大的開發空間來建立面向消費者和企業的產品。

OpenAI正在應對競爭對手Anthropic的威脅，將更多的程式碼編寫功能嵌入其模型中，並開發能夠模擬人類操作計算機的軟體，以完成涉及瀏覽器和應用程式操作的白領任務，如點選、游標移動和文字輸入等。

這些產品屬於能夠執行多步驟任務的AI代理範疇，其革命性可能與ChatGPT的首次釋出相當。

扎克伯格、奧特曼及其他人工智慧開發者的高管表示，他們尚未觸及傳統縮放定律的極限。也因此，包括OpenAI在內的公司依舊投資數十億美元建設資料中心，以儘可能提高預訓練模型的效能。

然而，OpenAI研究員諾姆·布朗（Noam Brown）在上月的TEDAI大會上提出警告，認為開發更先進的模型可能在經濟上變得不可持續。他表示：“我們真的會投入數千億甚至萬億美元來訓練模型嗎？縮放模式在某個時刻會失效。”

在公開發布獵戶座之前，OpenAI仍需完成複雜的安全測試。據員工透露，獵戶座可能會在明年初發布，並可能放棄傳統的“GPT”命名方式，以突顯大語言模型改進的新特性。對此，OpenAI發言人未予置評。

資料匱乏成為模型訓練的瓶頸

OpenAI的員工和研究人員指出，GPT進步放緩的原因之一在於高質量文字和其他資料的供應日益減少。大語言模型在預訓練階段需要這些資料來理解世界和不同概念之間的關係，以解決如撰寫博文或修復編碼錯誤等問題。

近年來，大語言模型主要依賴於網站、書籍等來源的公開文字資料進行預訓練，但開發者已幾乎耗盡了這類資料的潛力。為此，OpenAI組建了由曾負責預訓練的尼克·賴德（Nick Ryder）領導的基礎團隊，致力於研究如何應對資料短缺問題，並探索縮放定律的持續適用性。

據OpenAI員工透露，獵戶座部分使用了由其他OpenAI模型（如GPT-4和最近釋出的推理模型）生成的AI資料進行訓練。然而，這種合成數據也帶來了新問題，可能導致獵戶座在某些方面與前代模型過於相似。

OpenAI的研究人員正在利用其他工具，透過改進特定任務的處理方式來最佳化模型後期的表現。他們採用一種稱為強化學習的方法，讓模型從大量已正確解決的問題中學習，如數學和編碼問題。

此外，研究人員還邀請人類評估員在編碼或問題解決任務上測試預訓練模型，並對其答案進行評分，這有助於研究人員調整模型，使其在寫作和編碼等請求上的表現更佳。這一過程稱為帶有人類反饋的強化學習，也曾幫助過早期的AI模型改進。

OpenAI及其他AI開發商通常依賴初創公司，如Scale AI和Turing，來管理成千上萬名承包商，以處理這些評估工作。

OpenAI還開發了一種名為o1的推理模型，該模型在回答前會花費更多時間“思考”訓練資料，這一過程稱為測試時間計算。這意味著，即使不改變底層模型，給o1分配更多計算資源，也可以持續提高其響應質量。據知情人士透露，即使底層模型改進速度較慢，若OpenAI能保持持續改進，仍然可以實現更好的推理效果。

“這為模型擴充套件開闢了新維度，”布朗在TED大會上說。他補充道，研究人員可以透過“每次查詢成本從1美分提高到10美分”來提升模型響應質量。

奧特曼也強調了推理模型的重要性，認為它可與大語言模型結合使用。“我希望推理能力能夠解鎖我們多年未能實現的突破，比如讓模型在科學研究和複雜程式碼編寫中做出貢獻，”奧特曼在一場應用開發者活動中表示。

在最近接受Y Combinator執行長陳嘉興（Garry Tan）採訪時，奧特曼透露：“我們基本上知道如何實現通用人工智慧——一種能達到人類能力的技術，其中一部分是創造性地運用現有模型。”

數學家和科學家們表示，o1對他們的研究工作有幫助，能作為合作伙伴提供反饋和啟發。然而，據兩位知情員工透露，由於o1的價格是非推理模型的六倍，因此其客戶基礎尚未普及。

突破瓶頸，提升推理能力

一些對AI開發商投資數千萬美元的投資者疑慮大語言模型的改進速度是否開始趨於平穩。

風險投資家本·霍洛維茨（Ben Horowitz）在YouTube一段影片中表示：“我們正以相同的速度增加訓練AI的圖形處理單元，但在智慧提升方面未見顯著改善。”霍洛維茨的風投公司不僅是OpenAI的股東，還投資了Mistral和Safe Superintelligence等競爭對手。

霍洛維茨的同事馬克·安德森（Marc Andreessen）在同一影片中指出：“許多聰明人在致力於突破瓶頸，探索如何提升推理能力。”

企業軟體公司Databricks聯合創始人兼主席伊翁·斯托伊卡（Ion Stoica）表示，大語言模型在某些方面可能已趨於穩定，但在其他領域仍有改進空間。他還開發了一個網站，供應用開發者評估不同的大語言模型。

斯托伊卡稱，儘管AI在編碼和解決複雜問題上不斷進步，但在執行通用任務（如分析文字情感或描述醫療症狀）時，進展似乎放緩。

“在常識性問題上，我們似乎看到大語言模型的表現趨於平穩。為實現進一步突破，我們需要更多的事實性資料，而合成數據幫助有限。”（小小）