位元組跳動豆包上線圖片理解，大模型走向多模態

（圖片來源：林志佳拍攝）

國內活躍度最高的AI大模型應用正走向“多元化”。

12月3日訊息，鈦媒體AGI獲悉，位元組跳動豆包日前上線了一項實用功能——圖片理解。目前，豆包APP及豆包PC新增照片及相機按鈕，上傳圖片後可識別圖片內容。

相比普通的OCR識別（光學字元識別）技術，豆包的“圖片理解”並非識別文字，而是識別圖片資訊。比如，問一個景點在哪裡，問動漫人物是誰，豆包都能流暢進行回答。

再比如，早前，馬斯克創立的人工智慧公司xAI宣佈為Grok增加了影象理解功能，而馬斯克本人也出來官宣了，併發布以下圖片，稱“Grok現在能夠理解影象了，甚至還可以解釋笑話”。

這是一幅四格漫畫，內容是一個關於物理學家和牛頓的笑話。把這個四格漫畫發給豆包，也能看到它對這個笑話的解析。 1. 第一格：文字：“HOW DO WE KNOW IF THEYRE ACTUALLY DEAD OR JUST PRETENDING”（我們怎麼知道他們是真的死了還是隻是假裝？）影象：兩個人站在戰場上，周圍有許多倒地計程車兵。 2. 第二格：文字：“PHYSICISTS”（物理學家），影象：兩個人開始觀察和思考。 3. 第三格：文字：“Discovered”（發現了），影象：兩個人似乎有了某種發現，表情變得興奮。 4. 第四格：文字：“Isaac Newton invented gravity”（艾薩克·牛頓發明了重力），影象：兩個人得出結論，表情滿意。笑話解析：這個笑話諷刺了物理學家有時會提出一些看似荒謬但卻基於科學理論的解釋。漫畫中的兩個人在戰場上看到士兵倒地，他們沒有考慮士兵是死是活，而是思考這背後的科學原理。最後，他們得出結論是牛頓發明了重力，暗示士兵是因為重力而倒地。這種思維方式幽默地表現了物理學家對科學原理的執著和有時不切實際的思考方式。

你認為，上述這個解析結果怎麼樣？符合事實嗎？

事實上，隨著AI大模型狂飆兩年，企業越來越多瞄向更實用的落地場景，“圖片理解”就是其中一項，它可以解決一些搜尋、查詢評估、文字寫作等場景的需求，這使得大模型更加貼近實用場景需求。

QuestMobile最新資料顯示，2024年10月，AI原生應用行業月活躍使用者規模達到8976萬，同比增長373.0%。用於情感陪伴、職場辦公、趣味休閒、文案寫作、教育學習、生活助手、影象生成、行業顧問等場景中。

公開資料顯示，位元組跳動的豆包App已經成為中國日活使用者最高的AI大模型產品。

同時，截止到2024年10月，在網頁端訪問量方面，Kimi智慧助手、文心一言、豆包、通義千問分別達到2863萬、2111萬、1688萬、1012萬；在移動端AI原生應用方面，行業月活規模總數達到8976萬，同比增長373%，其中，豆包、Kimi智慧助手、文小言月活躍使用者分別為4839萬、1650萬、1179萬。

隨著AI浪潮的興起，各大廠商都在積極探索與AI大模型融合發展的新契機，AI有望引領全球新一輪科技創新週期，從而促使效率進一步增長。

據Statista資料顯示，預計到2030年，全球AI領域規模將超過1.8萬億美元。

（本文首發於鈦媒體App，作者｜林志佳，編輯｜胡潤峰）