大語言模型背後的認知是這樣,人類的一部分思考,可以用語言的方式來體現。
最早期的大語言模型的概念,是把思考看做一種基於統計規律的序列變換,舉個簡單的例子,中國學生聽到 How are you?就會回答 Fine thank you。在計算機裡面管這個叫做對序列進行自動補齊,初代人工智慧就是這麼搞的。
GPT的突破在於意識到一段話裡面有一些“關鍵詞”比其他的更值得關注,也就是所謂“注意力模型”,它產生的效果給人的感覺是更能“抓住重點”,因此更“像”說人話。
在之後科學家又開始模擬“反思”,“推理”等思考過程。
到了比較近的時期,科學家們發現訓練所用的語言和訓練的結果有相當大的關係。比如你用貼吧上辯經的素材訓練,和用維基百科訓練,效果顯然是完全不同的。
一部分人開始意識到中國科研人員比美國科研人員有個幾乎是“與生俱來”的優勢,就是語言。
中國所有的科研人員的英語水平放在美國都是拔尖的,因為我們這邊也是用英語寫論文的,所以理解英語沒障礙。
就是說如果說英語在訓練AI上有什麼優勢,那麼兩邊是對等的,沒有區別的。
但美國的中文水平那是有目共睹的。你覺得在美國公司裡面開個會討論中文的特點能開起來嗎?
這就意味著,如果中文有什麼獨特的優勢,那就是中國特有的競爭優勢。
然後大家發現,中文不僅有優勢,還挺大。
中文的“字”是有含義的,可用於建立詞之間的天然聯絡
中英文都有“詞”的概念,但中文有“字”的概念,而英文的“詞”除了特定情況,一般來說無法拆解成仍然有含義的相當於‘字’的東西。
導致的後果就是,英文詞的關聯性未必能被AI把握。
舉幾個例子說明。
中文有一個字叫做“火”,用火的表達很多,比如火焰,野火,這人火了。
如果對應到英文,它們依次是 flame,wildfire,popular
讓計算機分析這些語料的時候,如果看的是中文,它有機會分析火焰、野火、這人火了幾個表達為什麼都出現同一個火字,理論上說,如果這個模型設計足夠好,計算機就能把握住“火”的具體含義和抽象含義,它的理解就更接近人類。
但是當計算機看到flame,wildfire,popular,它會認為這幾個概念完全沒關係。你說它有什麼理由認為幾個不搭噶的詞有關係?
用形式上不類似的字表達含義上相關的概念,也就是形式和內容不對應,這個坑我們的祖宗走過。
漢語也走過造字太多的彎路
今天英語還在朝這個坑裡面走,就是隨著概念的增加一味地造單詞,現在基本上每個專業方向的英文詞都是上萬甚至好幾萬的規模,設想哪天英文要是突破一百萬單詞了,他們自己咋學~
形式和內容不對應,在人工智慧時代就表現為AI無法透過形式上的相似性理解內容上的相關性,也就阻礙了AI認知語言的本質內在聯絡。
歷史悠久的好處在於老祖宗走了太多的彎路,讓我們可以透過學習歷史少走彎路。
現代漢語的發展方向是原則上不造字,用現有的字組合新的詞
其實中文不是“生下來”就是現在這樣子,我們也是幾千年無數的嘗試和失敗,最後演變成現代中文今天的樣子。
大冷天說個冷知識,其實中國遠古時期就設計過不止一套表音文字型系,最後都是種種原因被淘汰了。
很多人看英文體系現在發展的挺好,你要懂得,對於語言歷史這種動輒週期以‘千年’為單位計算的東西,英文體系還沒走完第一個週期,遠沒到可以下結論的時候。
英文體系確實克服了表音文字的挺多大坑,比如因為方言造成語言分化,取得的成就挺大,這咱都不否認,但是他們面前就有個詞彙量爆炸的坑等著,咱只能說,祝福他們好運。
中文演變成以幾千個常用字為基礎構造龐大數量的詞的這套表達體系,不是我們喜歡,而是別的方法在華夏漫長文明史中全都淘汰了。
所謂的人工智慧,就語言模型這部分而言,本質就是幫助計算機理解人類語言,那麼很顯然你用一套漫長曆史中最能經受考驗的語言最可能取得成功。
下一步中文的優勢會具體如何體現呢?
最近看到廣大人民群眾各種調教DeepSeek,這是個好的開端,未來中國人民會用各種非常有創意的中文表達來“餵養”中國的AI模型,相信以14億中國人民的創造力,一定能讓AI模型把這幾千個漢字整的明明白白的。
AI早期是PK算力,DeepSeek這一輪是PK模型的設計水平,但終極比拼的是人民群眾創造語料的數量和品質。
AI最終是一場人民戰爭
到了2024年,矽谷的大語言模型演進明顯有放緩的趨勢,他們總結的表面原因是基本上耗盡了網際網路的語料素材。為什麼我說這是表面原因呢?
因為深層次的原因是,英文缺乏“字”這一級別的構造,人民群眾難以靈活創造新概念,因而難以給AI餵養新的“精神食糧”。
美國的算力儲備是佔優勢的,美國也可以透過抄襲DeepSeek迅速拉齊設計水平,但英語表意能力的侷限是無法克服的,除非美國放棄英語全民學中文。
我相信看到這裡,很多噴子就已經躍躍欲試了,我提醒各位噴子,爾等在評論區貼的文字,也會成為餵養中文AI模型的食糧,爾等越努力,就越有機會證明作者的正確。
如果這段話把爾等的CPU乾燒了,那爾等就滾蛋吧,你們連當噴子的料都不夠。
對於認可作者的同志們,作者要提醒各位,推動中國AI模型,不只是靠科學家,也是靠你們。
算力和模型只是決定了這個AI“胃口好”,但精神食糧是靠億萬網民創造的。大家多說一些構思巧妙的話,就會提升中國AI模型的思維能力。
世界是你們的,也是我們的,但是歸根結底是你們的。
歷史是人民群眾創造的,要證明中文是智慧時代最好的語言,就用一起創造高質量語料的方式,協助科學家們打贏AI戰爭。
證明自己正確最有效的方式不是辯論,而是消滅對手。
掛牆上的對手,才是最好的對手。
(完)