作 者:微瀾
來 源:正和島(ID:zhenghedao)
如果要列出當下全球最有權勢的一位95後,他的名字應該大多數人都沒聽說過——·王(Alexandr Wang)。
這位在矽谷被稱為“下一個扎克伯格”的天才少年,在2022年藉助著生成式AI的浪潮,成功登上《福布斯》全球億萬富豪榜,也憑此成為了史上最年輕的白手起家的億萬富豪。
儘管在一年後其創立的公司Scale AI因估值大幅下滑,他的名字也從富豪榜上消失。
但在今年5月,隨著Scale AI宣佈獲得10億美元融資,估值138億美元(約為人民幣1000億元),亞歷山大·王也再一次回到大眾的視野當中。
從2016年創立到成為千億估值的獨角獸企業,亞歷山大·王和Scale AI用了短短8年的時間,而憑藉著Scale AI,亞歷山大不僅在AI資料標註行業上演了一段傳奇創業故事,也在全球AI熱潮中扮演了一個“賣鏟人”的角色,為馬斯克、、扎克伯格等一眾科技大佬提供資料支援,某種程度上來說,他影響了整個AI世界的格局。
一、“賣鏟子”的天才少年
如果用一句話總結亞歷山大·王的創業故事,那一定是一出場就手握爽文大男主劇本。
1997年,亞歷山大出生於美國的新墨西哥州,其父母都是物理學家,在新墨西哥州洛斯·阿拉莫斯國家實驗室工作。
關於亞歷山大這個名字的由來,還有一個蘊含中國文化的故事:
Alexandr(亞歷山大)是其名字的英文拼寫,但比通用拼法少了一個e。在中國傳統中,數字“8”承載著許多美好寓意,所以他的父母就想讓他的名字剛好為8個字母。
受到家庭氛圍的薰陶,亞歷山大從小就是“別人家的孩子”:
小學時,亞歷山大便展露出數學天才的一面,到了初中,亞歷山大就讀於頂尖私立名校洛斯·阿拉莫斯,數次在美國數學人才選拔賽中拿下銅牌、金牌等;
上了高中後,亞歷山大又自學了程式設計技術,成為美國計算機、物理、數學奧林匹克競賽上的常客,成績均名列前茅;
此外,他9歲時學過小提琴,還精通中文、英語、法語等多種語言,可以說是“文理兩開花”。
除了學有所成,在高中時,亞歷山大就收到了多家矽谷科技公司的工作邀請,他先是去了矽谷最熱門的財富投資大資料管理平臺Addepar,之後又加入了“海外版知乎”Quora從事編碼工作並擔任技術主管。
也就是在Quora,亞歷山大結識了同為華裔的女孩Lucy Guo,後者也將成為Scale AI的聯合創始人。
2015年,憑藉優異的成績,亞歷山大考入麻省理工學院(MIT),主要攻讀數學和計算機專業。根據領英(Linkedln)的個人資料顯示,亞歷山大在MIT求學期間GPA為5.0(滿分),且其選修的還是研究生級別的計算機科學課程。
也正是在其麻省理工學院上大一期間,DeepMind推出的AlphaGo,戰勝了圍棋世界冠軍,開啟了人工智慧的元年和深度學習的熱潮。
“我記得當時我在大學裡,嘗試使用神經網路,嘗試訓練影象識別神經網路。我很快意識到,這些模型在很大程度上只是資料的產物。”
亞歷山大在後面一次採訪中曾回憶起上大學時的思考,“這些模型或AI總體上是由三個基本支柱構成——演算法、計算能力和資料。”
在當時,已經有公司在研究演算法,比如OpenAI或Google的實驗室,或者其他一些AI研究機構;至於算力,英偉達也已展示出了為這些AI系統提供算力的領導者潛力。
唯獨沒有公司專注於資料,亞歷山大意識到隨著人工智慧技術的長期發展,資料智慧變得越來越重要。
於是在麻省理工大一剛結束後的暑假,亞歷山大決定從MIT輟學,與此同時Lucy Guo也從卡內基梅隆大學輟學,兩人一同創辦了Scale AI。
當時很多人為這兩位天才的中途輟學感到惋惜,認為這就是一場豪賭,但亞歷山大的看法卻不一樣:“如果現在不願意邁出這一步,那什麼時候會願意呢?”
這裡還有個流傳的小插曲:
在大一結束後暑假的某一天,亞歷山大跟爸媽說,我暑假搞了個專案玩。
爸媽問到,啥專案啊,送檸檬水還是送外賣?
亞歷山大回答道,差不多吧,搞了個AI公司,還有個叫Sam Altman的給我投了點錢,對了,airbnb(愛彼迎)也是他們投的,現在估值也就300多億美金吧。
除了拿到Y Combinator(山姆·奧特曼時任總裁)的天使輪投資,在創立第一年,Scale AI還拿到了風投巨頭Accel的A輪融資。兩方資助下,Scale AI初期的資金障礙被掃清。
在成立之初,亞歷山大對ScaleAI的設想是打造一個一站式服務中心,解決AI生態系統中的資料支柱問題。
因此,Scale AI早期的定位就是透過結合自動化技術與人力稽核,建立一個高效、精確的資料標註平臺,為建立機器學習演算法的公司快速處理和標註大規模的資料集。
所謂的資料標註,是指為影象、文字、影片或音訊等原始資料新增結構化資訊,以便機器學習模型能夠理解和學習這些資料的過程。
通俗來講,就是給你一段影片或圖片,讓你分門別類地標出裡面的行人、車輛、建築等元素,某種程度上,這是個小學生也能做的事。
雖然原理很簡單,但這些經過標註的資料對於人工智慧的發展不可或缺。AI模型需要大量的標註資料來進行學習,才能具備識別、分類和預測等功能。
這裡值得一提的是,儘管一些自動化工具可以加快部分標註過程,但為了得到高質量、高精確度的標註資料,仍然需要大量的人工來處理、標記和驗證資料,尤其是在一些如醫療、自動駕駛、軍事等對高精度有要求的領域。
事實上,在Scale AI崛起之前,資料標註行業在AI領域長期處於“邊緣”位置,其對大量人工的需求使得外界打上了勞動密集型產業的標籤。
在大多數人看來,資料標註行業既不“AI”,也一點都不“性感”。
但就是這樣一個“低門檻”的“辛苦活”,被亞歷山大在8年時間裡幹出了一家估值千億的AI獨角獸;在2023年《時代週刊》釋出AI領域最具影響力的100個人物中,亞歷山大與李飛飛、黃仁勳、李彥宏等人共同入選榜單,其本人更是其中最年輕的人之一。
而在這背後,亞歷山大又是帶領Scale AI怎麼做到的?
二、從0到估值千億,8年時間Scale AI做對了什麼?
儘管資料標註看起來是一個低門檻、勞動密集型的行業,但在2016年的節點,它卻是一個為數不多的空白市場。
除了谷歌、亞馬遜等少數大廠因業務需求設立了自己的資料標註部門外,大多數公司不願意也沒有精力去自己管理,這導致標註資料的獲取的過程耗時且昂貴。
而這也正是Scale AI“賣好鏟子”飛速發展的機會所在,並且再回顧Scale AI八年的發展歷程,其成功也可以說是天時、地利,加人和的一個結果:
1.天時
在創立Scale AI後,8年時間裡亞歷山大帶領整個團隊抓住了人工智慧行業發展的幾次大風口。
先是自動駕駛領域。
2016年是AI時代的元年,也同樣是自動駕駛週期的起點,在那一年Cruise被通用以超10億美元的價格收購。
關注到這一訊息後,亞歷山大意識到自動駕駛行業對於資料標註將產生大規模的剛性需求——自動駕駛技術的發展依賴於大量高精度的標註資料,比如道路場景、行人和其他物體的影象資料,車企需要成千上萬小時的影片資料進行標註來訓練和驗證其演算法。
“我們構建了第一個支援感測器融合資料的資料引擎,支援2D資料和3D資料的組合,即鐳射雷達加攝像頭,這些裝置安裝在車輛上,這很快成為整個行業的標準。”
透過建立高效的資料標註平臺,以及使用模型輔助標註和資料預處理來加速了資料處理流程,使得標註成本和時間得到大幅度降低,很快Scale AI就吸引了通用汽車、豐田和Waymo等車企的合作。
亞歷山大和Scale AI也憑此在自動駕駛資料標註領域站穩腳跟。
而在2019~2020年期間,這個階段自動駕駛行業技術方面已基本成熟,加上當時語言模型和生成式AI還未誕生,人工智慧領域處於一個高度不確定時期。
於是,亞歷山大和Scale AI開始專注於政府應用,“這是一個顯然具有高度適用性的領域,並且在全球範圍內變得越來越重要。”
也正是在進軍新市場的過程中,Scale AI也從過去單純的資料標記延伸到資料服務,提供從資料標記和管理、模型訓練和評估,再到AI 應用開發和部署的全流程解決方案。
在之後幾年時間裡,Scale AI在資料領域迅速崛起,客戶也擴充套件到了醫療、國防、電商、政府服務等領域。
另外,為了應對某些行業資料不足的挑戰,Scale AI還向下游延伸到合成數據的生成,透過從現有資料中建立新的資料集,幫助訓練模型。
與此同時,Scale AI在這一階段也開始致力於生成AI,與OpenAI開展合作,在GPT-2上進行RLHF的首次實驗。
“當時的模型非常粗糙,真的看起來不怎麼樣。但我們認為OpenAI是一群聰明的人,我們應該與他們合作。所以我們與發明RLHF的團隊合作,並從2019年開始不斷創新。”
2022年,ChatGPT的問世震驚世界,生成式AI領域迎來了大爆發——生成式AI模型需要海量的訓練資料來提升其生成內容的準確性和多樣性,加上大語言模型的爆發式增長極大推動了整個行業對高質量標註資料的需求。
而靠著和OpenAI的合作,在生成式AI賽道Scale AI已搶佔先機,到了今天Scale AI更是成為了通用AI的資料鑄造廠,為OpenAI、Meta、Microsoft等行業內幾乎所有主要的大型語言模型提供支援。
2.地利
除了抓住這些行業風口到來的時機,亞歷山大還藉助著全球化這一地利優勢,實現了在資料標註行業裡的成本最小化。
因為美國人力成本高昂,在LinkedIn、indeed等平臺上,資料標註的兼職時薪大多都在30-200美元之間,但作為一個勞動密集型業務,這在客觀上就要求企業去思考解決資料生產問題,或者採購相關服務。
於是在2017年,Scale AI 成立了 Remotasks 作為其內部外包機構,在肯亞、菲律賓、委內瑞拉等地設立了幾十家機構,在世界各地培訓了成千上萬的資料標註員,這些標註員的工作大部分都是按件計酬,一次標註的收入低至幾美分,很多合約工在時薪甚至不到1美元。
曾有業內人士指出,“Scale AI不是一家人工智慧初創企業,它只是一家提供廉價勞動力的公司”。
但不管外界如何質疑,無法否認的確是,在這樣的“全球工廠”模式下,Scale AI的毛利率長期保持在65%以上,Scale AI也成為了當下AI領域為數不多不需要燒錢,而是狂賺錢的AI初創企業之一。
2023年,Scale AI年化收入高達7.5億美元(約合54.3億元人民幣),預計2024年底將達到14億美元(約合101億元人民幣)。
3.人和
除了營收快速增長,創業8年時間,亞歷山大和Scale AI的背後還集結了一支豪華的投資人隊伍。不僅有著大半個矽谷圈大佬,也出現了亞馬遜、英偉達、英特爾、Meta等超級大廠。
在前文我們提到,Scale AI剛創立時,就分別獲得矽谷著名孵化器Y Combinator和風投巨頭Accel的支援,前者的時任總裁山姆·奧特曼在後面的OpenAI又與Scale AI 開展了合作,而後者機構的合夥人還曾將家裡的地下室借給Scale AI臨時辦公。
而此後5、6年時間裡,Scale AI也基本是一兩年就融一次資,而參與投資的機構和個人在這個過程中顯然也不止是進行資金上的幫助,更是在多方面都進行了助力。
2024年5月,Scale AI再次官宣完成F輪融資,融資額10億美元,估值增長超過80%至約138億美元(約1000億人民幣),投資方陣容堪稱史詩級豪華,20多家機構和個人:
老股東Accel領投,Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、老虎基金、Greenoaks、Y Combinator、Wellington Management和GitHub 前執行長 Nat Friedman繼續加碼,同時英偉達、Elad Gil、亞馬遜、Meta、思科、英特爾、AMD、DFJ Growth、WCM、ServiceNow Ventures也參與了此次融資。
時來天地皆同力。毫無疑問,作為這一波AI浪潮中的“閃耀群星”中的一顆,亞歷山大和Scale AI註定要留下濃墨重彩的一筆。
也正如亞歷山大在完成F輪融資後在採訪中講到的:“Scale AI為當今市場上幾乎所有領先的 AI 模型提供資料支援。藉助此次融資,公司將進入旅程的下一階段——加速豐富前沿資料,為通用人工智慧鋪平道路。”
而解決人工智慧的資料問題將是他一生為之奮鬥的事業。
三、中國為什麼沒有Scale AI的誕生?
事實上,看完Scale AI的發展故事,大多數人可能會產生的一個疑問是,為什麼中國沒有類似於Scale AI這樣的企業誕生?
尤其是在生成式AI熱潮前,國內的人工智慧行業在應用方面一度領先,並且資料標註作為勞動密集性企業,中國天然就有優勢。所以為什麼呢?
總體來看,這背後有幾方面的原因:
1.“資源陷阱”
這裡先引入一個“資源陷阱(詛咒)”的概念,什麼是資源陷阱,就是指一個國家或地區擁有豐富的自然資源,但因為過度依賴這些資源,忽視了其他潛在的經濟增長領域,如製造業、服務業和技術創新等,導致經濟發展單一、結構不合理,同時隨著這種自然資源枯竭或市場需求下降,經濟可能會遭受嚴重打擊。
典型的例子便是委內瑞拉、俄羅斯,它們依靠石油、天然氣等賺取大量的外匯,但除了能源行業外,其它的經濟產業都非常落後,這種國家也被稱為“資源詛咒型國家”
一定程度上,在AI資料標註行業,國內也陷入了這種資源豐富的“詛咒”。
事實上,國內的資料標註業務也很早就起步發展了,但並沒有形成規模。很多龍頭企業雖然成立了資料標註部門,但主要是為自身業務服務,而並不是尋求將資料與各個行業進行資源匹配;
加上依靠國內的人口紅利,讓標註後的資料獲取成本變得十分低廉,哪怕是今天國內的資料標註價格依舊偏低,拿重慶這種新一線城市來說也僅為4~6k/月。
在這種情況下采用技術平臺或者進一步研發來提高資料標註或是從標註行業進一步向上延展創新,對於處在市場競爭中的企業而言,可能反而是得不償失的做法。
但一旦在這個階段錯過了對資料標註行業的技術創新或沉澱,也許就永遠地錯失了創新升級的機會了。
2.生態不足
這裡的生態不足體現在兩個方面,一是單純從語言生態來講,必須要承認,英文的使用範圍是全球,而中文的使用範圍更多還是在國內以及海外的部分華人。
所以在資料標註這一產業上,Scale AI天然就有了優勢,站在資本的高地,在全球範圍內尋找著價值窪地,而國內哪怕是有人口紅利,這成本優勢終究更高,且在資本(投融資)方面也沒有佔據高地。
另外,需要提到的是在數年前,隨著移動網際網路格局的成熟,國內網際網路生態在當時也進一步走向了對抗封閉,而這也使得資料在流通上出現了阻礙,甚至可以說當時的資料標註行業也被迫參與到這種對抗封閉的生態中去,各為其主、各自而戰,無法形成有效的、規模性的創新力量。
3.視野侷限
對於資料標註行業,站在當時那個節點,只有少數人能因為相信而看見。
在國外,也只有亞歷山大等寥寥幾人,在國內這樣的人顯然就更少了。
事實上,大多數參與到資料標註行業中的人,更多就是秉持著過往的勞動密集型產業的邏輯,靠著“內卷”來實現生存以及盈利的。
但是亞歷山大不同的是,儘管行業邏輯是勞動密集型的特點,但對於他而言,這只是最基礎的一點,是作為構建起整個資料行業上下游生態的一個跳板。正如其在最近的訪談中談到,人們已經用盡了網際網路上的所有資料,想要開發出比GPT-4.5更強大的人工智慧,則必須構建前沿資料。
所謂的“前沿資料”是指那些與應用場景密切相關、能及時反映最新趨勢和變化的資料,往往包含大量長尾或少見的場景,有助於提升AI在非典型情況下的表現,推動人工智慧能力的邊界向複雜推理、多模態等方向發展。
隨著AI的快速進化,未來的資料訓練需要更多地與特定任務、特定應用場景相匹配,因此也需要挖掘和生產出更多新的、差異化的資料,而這可能也正是亞歷山大在2016年時就看到的未來。
從這個角度來看,Scale AI作為一面鏡子,其從最“廉價”的行業中成長為一個估值千億的AI獨角獸企業有太多可以學習的地方了。
參考資料:
[1].從麻省理工輟學,他幹成億萬富翁,環球人物
[2]. 估值1000億,輟學90後華裔天才,剛剛融了72億,融中財經
[3]. 給AI公司“打雜”,95後華人把估值做到138億美元
[4]. 95後,一舉融資70億,投資界
排版| 小元| 微瀾主編| 孫允廣