智東西
作者 程茜
編輯 心緣
距離龍年春節只剩11天了,你的新年頭像或紅包封面準備好了嗎?如果還沒有,AI繪畫工具可能是個“私人定製”的不錯選擇。
▲提示詞:生成一張龍年頭像,要有喜慶的氛圍,還能體現招財進寶、大吉大利(第一排為文心一言、百度文心一格、360智繪、阿里雲通義萬相、訊飛星火;第二排為智譜AI智譜清言、抖音豆包、騰訊混元助手、美圖MiracleVision、訊飛星火繪畫助手)
過去一年,AI文生圖模型持續進化,不僅能熟練駕馭各路畫風,而且陸續解決畫不好手、搞不明白空間位置、不理解“紅燒獅子頭”等有歧義或抽象概念的種種難點。
國外Midjourney、DALL·E 3、Imagen 2雖好,但用起來有一定門檻。好在國內大模型企業們急追猛趕,釋出了一大波適合中國人體質的AI繪圖工具,在易得性上甩開國外AI工具十條街。
這些工具通通可以免費體驗,透過網頁或App即可使用,在使用門檻上基本拉不開差距。拼生成速度吧,大致每張圖片都能在半分鐘內生成,具體受網路環境或瀏覽器狀況的影響,做不到很客觀。
那麼誰才是國產AI文生圖工具的頭號玩家?誰才是輔助專業創作者提高效率、解救繪畫小白於水火之中的神器?回答這個問題,要考察兩個關鍵能力:理解到位,畫得精細。
為此,我對國內10款免費的AI文生圖工具進行了5個梯度進階的體驗對比,考題包括但不限於日常腦洞、網路名梗、頭像設計、公司年會、春節氛圍、跨界組合、詩詞理解、多輪修改,來看看哪款工具更得心應手、更能秒懂使用者的心。
綜合來看,智譜AI的智譜清言是整體表現最穩定的一款AI文生圖工具,在10個考驗中基本都能生成符合我要求的影象。
不過全員翻車的考題也不少,例如畫出來的鸚鵡爪子不僅奇形怪狀,數量也與真實不符;理解不了時下正熱的“南方小土豆”,還把“拿著冰糖葫蘆”這一動作畫成了串在一起的土豆;把福字、春聯上的文字寫的像鬼畫符……
論文字理解能力,智譜清言、文心一言、訊飛星火、通義萬相、混元助手的表現更勝一籌。360智繪、美圖MiracleVision則在面對第一道題的“阿拉斯加”時就出了岔子,莫名把阿拉斯加畫成一個男人/北極熊。
論畫面精細程度,智譜清言、通義萬相、文心一格生成的春節氛圍圖幾乎可以拿來即用;在春晚宣傳海報上,直接點名龍年背景,結果通義萬相、訊飛星火、抖音豆包的吉祥物形象可以說與傳統“龍”沒有關係。
論多輪修改的靠譜程度,文心一言是每一輪都堅持到最後的玩家,智譜清言都是忠於上一幅圖片修改,混元助手的表現則可圈可點,有的每一步需求都理解到位,有的卻加了一些奇怪元素。整體來看,多輪修改是畫圖、設計的必備技能,但基本所有的AI繪畫工具都無法做到。
為了保證對比的公平,我在體驗每一個工具的生成能力時均以第一次生成圖片為準,具體的對比如下:
一、青銅難度:1-2個關鍵詞,鳥爪、網路熱詞難拆解,訊飛、智譜AI表現亮眼
第一階段青銅難度的提示詞較為簡單,這些提示裡包含的關鍵詞大多隻有2個,包含生成圖片中的主要角色,以及其這一角色的地理位置、行為動作、圖片大小、圖片風格等其中之一個關鍵要素。
首先是“一隻站在樓頂的阿拉斯加”,主要包含對地理位置和阿拉斯加犬種的理解。
▲第一排左起:百度文心一言、百度文心一格、360智繪、通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
將兩個關鍵詞分拆來看,各個工具都透過周圍樓層的對比或者俯瞰來呈現“站在樓頂”。大多數圖片也都突出了阿拉斯加大型犬、黑白配色、長毛等主要特徵。
但是令我沒想到的是“阿拉斯加”這個常見犬種,竟然會有AI生成的形象完全與之不搭邊。美圖MiracleVision畫了一隻形似北極熊的動物站在了樓頂,360智繪更離譜,畫了一個男人站在樓頂。
第二道題是生成“一隻站在樹杈上的粉色鸚鵡”,這一提示詞的關鍵詞主要包含地理位置、粉色、鸚鵡。這道題的難點在於鳥爪和人手一樣,都是困擾AI的一道難關,一些AI生成的鳥爪圖經常會出現形態扭曲、奇怪的情況。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
果不其然,10款AI繪畫工具全都翻車。鸚鵡腳趾為對趾型足,兩趾向前,兩趾向後。但這些圖片中有的將腳趾隱藏在樹幹之後,有的即使畫出了腳趾但數量和位置也不對。
不過這些AI生圖都呈現了“站在樹杈上、粉色”的特點,也都能一眼看出是鸚鵡,但經不起細看。
當我放大圖片細細觀察時,通義萬相、訊飛星火、訊飛星火繪畫助手、美圖MiracleVision在鸚鵡眼睛的處理上也出了岔子,有的鸚鵡一側有兩隻眼睛、有的眼球很小完全失真。
第三道難題是“一個拿著冰糖葫蘆的南方小土豆,‘南方小土豆’是東北人對遊客的暱稱”,這一提示詞的主要難點在於理解“拿著冰糖葫蘆”和“南方小土豆是遊客”。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
從結果來看,有的圖片將土豆當成山楂串了起來,有的直接將一顆顆小土豆重新排列組合,還有的直接搬來了土豆的卡通形象。
其中獨樹一幟的當屬訊飛的兩款AI工具,充分理解了“小土豆是遊客”這一概念,我也終於在10張圖片中看到了真人形象。
但冰糖葫蘆全部翻車也是我沒想到的,只有智譜清言的卡通形象在一根木棍上串著幾顆紅色果子,還稍微與冰糖葫蘆貼邊。
青銅挑戰的最後一道題是,“用青花瓷風格畫冷杉”,對圖片風格進行了指定。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
這一大難題的生成結果之間的差距較大,有將冷杉畫到青花瓷器具上、有將青花瓷花紋畫到冷杉上、還有使用青花瓷對應的線條顏色等直接呈現一幅畫。
前兩種雖然將青花瓷風格和冷杉這兩大元素相結合,但理解的仍然不夠準確。其中通義萬相、智譜清言、騰訊混元助手的圖片感覺甚至可以直接拿來用,其將青花瓷風格直接融入到了畫中。
不過,智譜清言的畫還有一個小bug:將冷杉畫成了松樹。
二、白銀難度:關鍵詞數量翻倍,漢字、指定位置內容翻車多
白銀階段的提示詞難度上升,關鍵詞從2個增長到5個以上,並且需要對關鍵詞描述加以理解。
第一道題為了契合即將到來的春節,讓AI繪畫工具生成了“一張春節氛圍濃重的圖片,需要包含燈籠、春聯、福字”,除了美圖MiracleVision外,其餘圖片都體現了熱鬧的春節氛圍。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
為了降低一點難度,方便我能快速在圖片中找到相應元素,這道題只設置了“燈籠、春聯、福字”三個明確的關鍵詞,但最後的結果並不完美。
智譜清言、抖音豆包倒是完全保留了三個元素,但中文字元的呈現仍然是一大難題。智譜清言的圖片可以勉強看出“福”的輪廓,抖音豆包的春聯、福字則全是一堆亂碼。
其餘幾個工具生成的圖片中大多都只包含其中的1-2個元素,而通義萬相、訊飛星火、訊飛星火繪畫助手、騰訊混元助手的春節氛圍十分濃厚,整個畫面看起來也很和諧。
第二道題的關鍵詞數量直接翻倍,包括“餃子,美食,熱氣騰騰,色彩柔和,高飽和度,食物攝影,誘人,定焦,超清”。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
起初我以為這道難題的門檻會在後面一長串的限定詞呈現上,但沒想到直接從“餃子”就開始翻車。抖音豆包、訊飛星火、訊飛星火繪畫助手、通義萬相、智譜清言生成的圖片能看出是正宗餃子,其餘幾個已經直接“變異”為包子。
第三道題中設定了一個難關,“一家公司開年會,在圖片的右上角位置,需要有年會主題的橫幅”,需要在指定位置畫出年會的橫幅。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
在體現氛圍這一塊,這些AI工具畫得都還不錯。不過,360智繪、通義萬相、美圖MiracleVision的圖片並沒有理解“年會”的概念,而是直接省略了“年”字,生出了一張大家開會的圖片。
這道題裡我並沒有將放橫幅的位置指定十分精確,只是模糊說了“右上角”。從位置來看,抖音豆包、訊飛星火、訊飛星火繪畫助手有橫幅、主題,但都在畫面的正上方,智譜清言的圖片右上角可以明顯看到有橫幅、標語類元素。
白銀階段的最後一道難題是,“今年是龍年,為春晚畫一幅宣傳海報,需要有吉祥物”。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
春晚的吉祥物傳統由來已久,龍也是中國傳統文化的典型代表形象,AI繪畫在這兩個元素的結合方面確實給出了一些更新的思路。有龍頭人身、小恐龍形象等等,還有一些甚至完全脫離了傳統意義的龍。
從最後的生圖效果來看,除了智譜清言的圖片有出現宣傳海報的邊框等,其餘大多都只有一個吉祥物形象和背景。
三、黃金難度:想象力發散測試,“魚躍龍門”幾乎難倒所有工具
黃金難度考驗的既是AI繪畫工具的想象力與創造力,還有對一些誤導性提示詞的分辨。
第一道題為“兩個機器人攜手登月的四格漫畫”,四格漫畫想要考研AI繪畫工具能不能將四個有互相關聯的畫面呈現出來。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
從結果來看,雖然單看圖片無法理解四格漫畫呈現的具體故事,但相似的角色以及角色動作、背景的改變都呈現出了其中的連貫性,其中的代表AI繪畫工具就是智譜清言、抖音豆包、美圖MiracleVision。360智繪生成的圖片雖然也呈現了四格漫畫,但更像是一個人類登月的故事。
其餘幾款工具則直接忽略了“四格漫畫”這一關鍵詞,只體現了“兩個機器人攜手”登月。
第二道題更加無厘頭,“蒙娜麗莎來到中國應聘為一名程式設計師”,需要AI繪畫工具體現出蒙娜麗莎、中國、程式設計師三個元素。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
文心一格、訊飛星火、訊飛星火繪畫助手直接將蒙娜麗莎的經典形象和電腦相結合,百度文心一言、360智繪、阿里雲通義萬相、智譜清言、混元助手則進行了完全再創作,前三個生成的圖片可能是為了貼閤中國這一元素,長相更像中國人。智譜清言的形象更貼近外國人形象,並且唯一將“應聘”體現出來的圖片,混元助手則自行採用了漫畫畫風。
抖音豆包、美圖MiracleVision直接將蒙娜麗莎的原形象搬到了圖片上,但調整了圖片背景,不過並不能讓我一眼看明白想體現的關鍵元素是什麼。
第三道題為AI繪畫工具挖了一個大坑,“一隻叫做‘松鼠鱖魚’的魚成功躍龍門”,需要AI避開“松鼠鱖魚”,精準get到這不是重點。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
“松鼠鱖魚”這一難題還是騙過了1/2的AI工具,好在此前的“松鼠跪在一條魚前”的烏龍沒有再次出現。訊飛星火的圖片體現的是“魚躍門”,智譜清言包含了“龍”和“門”。美圖MiracleVision更為簡單粗暴,直接用文字將這條魚的名字打在了正中間。
四、鉑金難度:字面直譯畫圖,古詩意境呈現相距較遠
最後鑽石難度,就是集中國古人智慧之大成的古詩理解環節。一般而言,古詩寥寥數語背後蘊含了與社會背景、人物古詩等都相關的意境等,所以既需要AI理解這句詩,還應該聯合古詩上下文。
為了循序漸進,AI繪畫工具一開始接收到的詩句都是畫面感很強,有突出的物件和環境描寫。
第一道題是“牆角數枝梅,凌寒獨自開”,單看句面意思拆解來看就是牆角、梅花、寒冷、開放這幾個關鍵詞。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
除了另闢蹊徑的美圖MiracleVision,其餘幾款工具都將“梅花”、“開”作為畫面的主體。文心一言的畫作邊上還有詩句及印章,更符合古詩配圖的風格。文心一格、通義萬相、智譜清言、訊飛星火、訊飛星火繪畫助手、騰訊混元助手的畫面上都有雪花,體現了“凌寒”。
智譜清言的梅花處於牆角,但從外觀看更像現代的牆壁,與古詩暗含的年代不相符。
第二道題的古詩“黃河之水天上來,奔流到海不復回”畫面感也很強,但與梅花不同,這句詩中的“黃河”有指定的物件。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
美圖MiracleVision仍然直接了當將詩句放到了圖片正中間。抖音豆包、百度文心一言、百度文心一格、阿里雲通義萬相的圖片對於黃河的呈現更為真實,且體現出了“奔流到海”的氣勢。智譜清言、訊飛星火、訊飛星火繪畫助手更專注於呈現“黃”的元素。
360智繪雖然能感受到黃河,但河面過於平靜,沒有奔流的氣勢。
最後一道題“了卻君王天下事,贏得生前身後名”的難度在於,畫面感不強,AI無法直接從字面獲取到詩句的主要物件。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
從AI繪畫工具生成的圖片可以看出,大多工具將“君王”作為圖片的主體,通義萬相是一個大型宮殿,也從側面體現的是君王。不過文心一言和文心一格呈現出的是一個女性形象,與古詩的字面意思看起來毫無聯絡。
美圖MiracleVision無法根據這一提示詞生成圖片。
當將“醉裡挑燈看劍,夢迴吹角連營。八百里分麾下炙,五十弦翻塞外聲,沙場秋點兵。馬作的盧飛快,弓如霹靂弦驚。了卻君王天下事,贏得生前身後名。可憐白髮生!”整首詩作為提示詞,AI繪畫工具生成圖片更符合古詩本身的意境,都有徵戰沙場的將軍形象。不過美圖MiracleVision仍然無法生成。
▲第一排左起:百度文心一言、百度文心一格、360智繪、阿里雲通義萬相、智譜AI智譜清言;第二排左起:抖音豆包、訊飛星火、訊飛星火繪畫助手、騰訊混元助手、美圖MiracleVision
其中,智譜清言左下方還有詩句,更符合古詩配圖風格。360智繪、阿里雲通義萬相圖片中只有一位將軍形象,無法體現出更宏大的場面。
五、鑽石難度:多輪對話反覆修圖,僅文心一言堅持到底
每一個設計師的設計稿都有N個版本,所以想要讓AI畫出我滿意的圖片就需要反覆提需求。
然而在這一環節只剩三位競爭對手:文心一言、智譜清言、騰訊混元助手。其餘幾款工具因為不支援多輪對話等原因直接退賽。
第一道題還是延續了上文多個AI工具敗下陣來的春節氛圍圖的提示詞。
這回我變難纏了,對AI工具生成的圖片更加挑剔,在讓它們生成一張春節氛圍濃厚、包含燈籠、春聯、福字的圖片後,又不斷提出新的修改要求,包括“畫面更寫實”、“人多一點”、“畫面裡還要有人在放鞭炮”等。向所有AI工具都輸入的文字都完全一致。
文心一言生成的四張圖中,除了對“寫實”這個詞理解不到位,其餘改進都很符合我的需求,並且可以看出下一幅圖基本沒有偏離上一幅的整體風格。
與文心一言相比,智譜清言的四張圖能明顯感受到是同一幅畫面的內容逐漸增多,不過也是在“寫實”這部分,後三張圖仍然為卡通、動漫風格。
騰訊混元助手的四張圖可以用風格迥異來形容了,每一張都是在前面所有需求的基礎上進行再創造,不過對於“寫實”的理解,混元助手也更勝一籌,後三張明顯感覺更為真實。然而,最後一張圖,混元助手卻將“放鞭炮”畫成了“放煙花”,完全找不出鞭炮在哪兒。
第二道題也是前面眾多AI繪畫工具曾經化餃子為包子的考題要求增加版。
在讓每個AI工具畫一張剛出爐的餃子照片後,我又陸續提出“讓這盤餃子冒著熱氣”、“再多來幾盤餃子”、“旁邊再多幾盤菜”、“旁邊再坐一家人吃這些菜”等修改要求。
一共五輪對話,一路堅持到最後的只有文心一言,智譜清言在加幾盤菜環節落敗,告訴我它還沒有構思好,可以換其他需求,混元助手僅僅堅持到了讓餃子冒著熱氣,就回復“還未學習到如何回答這個問題的內容”。
不過,乍看之下文心一言的前四張圖幾乎沒有差別,第四張圖雖然勉強可以看到餃子周圍多了幾個碗,但這些更像是蘸料碗。最後一張的氛圍倒是很對,但並沒有在此前的版本上修改,等於全都推翻重來。
智譜清言雖然僅有三張圖,但都按要求改了,不過還是和之前的問題一樣,最後餃子變包子。智譜清言生成的每一張圖下面還附帶了它對圖片的理解與解釋,比如第三張圖它有提到“中心是一盤冒著熱氣的剛出爐的餃子,周圍擺放著幾盤其他各種不同的中國菜餚。這些菜餚包括蔬菜、肉類和米飯,代表了一頓傳統的中國餐”。這讓我能夠根據它對需求的理解去再次提出修改建議。
騰訊混元助手的兩張圖既把餃子變成了包子,還莫名其妙在中間放了一碟辣椒。
第三道題則更具迷惑性,我試圖讓AI搞懂狗和狗不理包子的關係。
我首先讓每個AI工具畫一桌天津狗不理包子,接著要求把圖改成“一隻狗在吃狗不理包子”,又讓它把狗的顏色換成黑色、把圖片換成漫畫風。
文心一言前兩輪表現很不錯,既有狗不理包子也有狗,但後兩張圖讓我大跌眼鏡,黑漆漆的包子屬實很罕見,並且第四張圖包子“露餡”了,有一種往燒麥生成的感覺。
智譜清言的四張圖,我每一張要求它修改的細節都涵蓋很到位,美中不足的是為什麼包子會接連變成饅頭、漢堡包和一大塊麵包?
騰訊混元助手直接在中間將狗放到了包子盤中,不過狗的顏色確實改變的很到位,後兩張圖的包子同樣變成了漢堡包。
結語:AI繪畫工具對比:圖片氛圍感拉滿,遇到真實物體就歇菜
從我深度體驗國產10款AI繪畫工具的感受來看,AI在一些氛圍感較強、沒有指明具體包含要素的圖片生成上表現較好,但一旦指定生成狗、包子、餃子等具體可以物體時,就會出現奇怪的圖片。不過當碰上春節氛圍或者青花瓷風格,這些需要AI自主創作更多的畫面時,它往往能帶給我驚喜,有些甚至可以拿來即用。
剛開始,AI繪畫工具因為對松鼠“跪”魚、車/水/馬/龍等的奇葩理解鬧出不少烏龍,但現在隨著其影象生成效果越來越逼真,對細節的刻畫也很細緻,我對這些工具的印象也大大改觀。
不過對於更資深的繪畫工作者而言,AI在刻畫物體方面容易犯錯的問題十分致命。當人們想要用AI來為書籍配圖、宣傳海報生成圖片時,非資深人士很難發現AI生成的鳥爪、動物形象等是否符合客觀情況,海報上的文字、吉祥物形象如果不能被一下子看懂或者出現一些不符合常理的內容也會讓傳播效果大打折扣,因此這也是我希望AI繪畫工具下一步亟需改進的地方。