時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

Science封面:基因組基礎模型 Evo,從分子到基因組理解生命複雜性

2024-11-30 17:45:06

導語

隨著大語言模型時代的到來,各領域都湧現出了一批使用、強算力訓練出的基礎模型,它們在評測中表現優異,並能泛化到各種下游任務。在 AI for Life Science 領域,單細胞基礎模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等相繼湧現。2024年11月15日,美國 Arc 研究所(Arc Institute)和斯坦福大學的研究團隊提出了一種基因組大模型 Evo,能夠以無與倫比的準確性解碼和設計從分子到基因組規模的 DNA、RNA 和蛋白質序列,打通“中心法則”,這一成果刊登在當期 Science 封面,為解碼複雜生命系統提供了利器。

關鍵詞:AI for Science,基因組基礎模型,基因組設計

董弘禹| 作者

論文題目:Sequence modeling and design from molecular to genome scale with Evo 論文連結:https://www.science.org/doi/10.1126/science.ado9336

在生活中,ChatGPT 可以寫小說、編寫計算機程式碼、提供出行建議,它能夠閱讀網際網路上的所有語言文字資訊,並生成問題的答案。在分子生物學中,DNA 序列是碳基生物的“語言文字”,讀懂這些資訊就能夠掌握遺傳密碼。科學家已經開發了一些模型,可以像分析大語言模型中的單詞一樣分析 DNA 序列,如 DNABERT2 等。然而,這些模型只能解釋和預測相對較短的 DNA 片段,並且訓練資料也十分有限,泛化效能不高。基於此,科學家們研發了 Evo 模型。它以數十億條基因序列為基礎,可以推斷出細菌和病毒基因組的運作方式,並利用這些資訊設計新的蛋白質甚至整個微生物基因組。

圖1. 基因組基礎模型 Evo 具有70億個引數,可以學習從單個核苷酸到整個基因組的生命複雜性。

1. 基因組基礎模型 Evo:架構與訓練細節

想要理解大批次的基因資料,首先就要改進模型架構。Evo 採用了基於 StripedHyena 的框架,在 270 萬個進化多樣的原核生物和噬菌體基因組上進行預訓練,從而獲得對遺傳語言的基本理解,預測 DNA 的功能或生成新的 DNA 序列。

StripedHyena 架構如圖1B所示,該模型混合了密集二次 Transformer 運算元和次二次型 Hyena 運算元用於提高計算效率。同時,該模型將上下文視窗擴增到長達13萬鹼基,顯著提高了模型識別基因與其他基因調控元件 (如啟動子、增強子等) 之間聯絡的能力。為了為了確定 Evo 的最佳架構和縮放比例,圖1F、G比較了在計算最優邊界上預訓練的不同模型的縮放率,在資料集大小和模型大小之間進行最佳計算分配。

從訓練角度來看,為了防止惡意使用者設計生物武器,研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列,並在接近 3000 億核苷酸序列資訊上進行了4周的訓練。

圖2. 在原核生物中預訓練基因組基礎模型

2. Benchmark與效能比較

為了測試 Evo 模型的效能,研究人員首先衡量它是否能夠預測突變對生物序列的影響。具體而言,在零樣本功能預測的條件下使用 Evo 與其他模型,預測蛋白質突變對功能的影響、非編碼 RNA 突變對功能的影響、調控 DNA 序列對基因表達的影響。圖2展示其相關性的強度超過了之前從 DNA 序列資料推斷突變效應的人工智慧模型;其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。

圖3. Evo 對蛋白質、非編碼 RNA 和調控 DNA 進行零樣本功能預測

3. 下游應用:

從分子到基因組尺度的序列設計

除了判別式任務之外,基礎模型也應有生成能力。ChatGPT 能夠生成文章,Evo 模型也能夠生成基因序列。為此,研究團隊讓 Evo 設計新版本的 CRISPR 基因編輯器。如圖3所示,Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然後,該模型設計了數百萬個分子的潛在版本。研究人員挑選了 11 個最有可能的 Cas9 變體,並在實驗室中合成了這些蛋白質。在試管實驗中,設計的 Cas9 酶中最好的一種,在切割 DNA 方面與商業版本的蛋白質一樣好。

圖4. 在 CRISPR-Cas 序列上進行微調可實現蛋白質-RNA 複合物的生成性設計

此外,Evo 還擅長多元件系統生成任務,如圖4所示,團隊透過對 CRISPR-Cas 序列和IS200/IS605 序列進行微調,可以實現合成 CRISPR-Cas 分子複合物和轉座系統。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子複合物以及 IS200 和 IS605 轉座系統的功能活性,這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協同設計的第一個例項。

圖5. 在 IS200/IS605 序列上進行微調可實現轉座生物系統的生成性設計

最後,研究人員使用 Evo 生成了長達 1MB 的 DNA 序列作為細菌的基因組,這些序列展現出真實基因組的多個特徵,包括編碼密度、基因組織、密碼子使用偏好性、四核苷酸使用模式等 (圖5) 。

圖6. Evo 生成具有密集編碼架構的基因組規模序列

總體而言,Evo 經過 270 萬個原核生物和噬菌體基因組的訓練,展示了跨 DNA、RNA 和蛋白質模態的零樣本函式預測,其效能可與特定領域的語言模型相媲美,甚至優於特定領域的語言模型。模型首次實現了單核苷酸解析度下的長序列 DNA 建模,實現了從分子到基因組尺度的序列設計能力。這些突破為生物工程和基因組設計開闢了新的可能性。

大模型與生物醫學:

AI + Science第二季讀書會

生物醫學是一個複雜且富有挑戰性的領域,涉及到大量的資料處理、模式識別、理論模型建構和實驗驗證等問題。AI基礎模型的引入,使得我們能夠從前所未有的角度去觀察和理解這個領域的問題,加速科學研究的步伐,提高醫療服務的效率和效果。這種交叉領域的合作,標誌著我們正在向科技與生物醫學深度融合的新時代邁進,對於推動科學研究、最佳化醫療服務、促進人類健康有著深遠的影響。

集智俱樂部聯合西湖大學助理教授吳泰霖、斯坦福大學計算機科學系博士後研究員王瀚宸、博士研究生黃柯鑫、黃倩,華盛頓大學博士研究生屠鑫明,共同發起以“大模型與生物醫學”為主題的讀書會,共學共研相關文獻, 探討基礎模型在生物醫學等科學領域的應用、影響和展望。 讀書會已完結,現在報名可加入社群並解鎖 回放 影片許可權。

詳情請見:

生命複雜性讀書會:

生命複雜系統的構成原理

在生物學中心法則的起點,基因作為生命複雜系統的遺傳資訊載體,在生命週期內穩定存在;而位於中心法則末端的蛋白質,其組織構成和時空變化的複雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發的邊緣。如此海量的資料如何幫助我們揭示宇宙中最複雜的物質系統——“人體”的構成原理和設計原理?闡釋人類發育、衰老和重大疾病的發生機制?

集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創新中心博士後唐詩婕,共同發起「」讀書會,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要資料,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關係,激發新的研究思路和合作專案。讀書會從2024年8月6日開始,每週二晚19:00-21:00進行,持續時間預計10-12周。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入!

詳情請見:

1.

2.

3.

4.

5.

6.

熱門資訊
  • 馬斯克啟動首次腦機人體試驗:他的技術牛在哪,還有多少難關? | 2024-01-31 12:43:19
  • SpaceX獵鷹9立新功:首次發射天鵝座飛船 | 2024-01-31 12:43:28
  • 破局2024|馬化騰:裁員對員工家庭影響很大;位元組CEO反思:我們去年才討論大模型 | 2024-01-31 12:59:36
  • AMD 承認忘記解除STAPM限制,影響 Ryzen 8700G / 8600G APU 效能 | 2024-01-31 13:00:07
  • 《華盛頓郵報》評蘋果Vision pro:有場隱私危機“蓄勢待發” | 2024-01-31 13:00:11
  • 年入621億!“土裡刨食”的廉價手機,竟成了鑽石王老五 | 2024-01-31 13:00:14
  • 蘋果Vision Pro電池被吐糟 比5000mAh手機還要重 | 2024-01-31 13:00:17
  • 三星S24 Ultra耐久性測試結果:螢幕耐刮 機身剛性不錯 | 2024-01-31 13:03:27
  • 盤點國際上權威組織對轉基因的態度 | 2024-01-31 13:03:31
  • 聊聊高效能核顯輕薄本的“必要條件” | 2024-01-31 13:03:38
  • 蘋果Vision Pro頭顯獲近7億美元收入,你會買2萬多的蘋果頭顯嗎? | 2024-01-31 13:03:41
  • 蘋果iPhone 16系列擠牙膏 2024年預期出貨跌15% | 2024-01-31 13:04:26
  • 登上月球需要多大技術支援?美國:一臺記憶體4KB的計算機就夠了! | 2024-01-31 13:29:26
  • 掃地機器人“鼻祖”即將裁員換將 | 2024-01-31 13:30:05
  • 海森堡測不準原理的理論基礎 | 2024-01-31 13:33:49
  • 天璣9400引數曝光:3奈米、CPU提升40%、功耗省33% | 2024-01-31 13:51:18
  • 為最佳化問題而最佳化的晶片 | 2024-01-31 13:51:47
  • 蘋果使用者饞哭了,小米澎湃OS好用的功能 | 2024-01-31 14:37:36
  • 華為、蘋果官網上新,這價格把我看傻了! | 2024-01-31 14:37:45
  • 蘋果新系統來了,已「定檔」 | 2024-01-31 14:37:49
  • 三星國內市場再陷爭議,虧還沒吃夠? | 2024-01-31 14:37:53
  • 曝華為新款筆記本效能提升非常大 搭載麒麟PC晶片? | 2024-01-31 14:37:57
  • 256GB僅1699元!訴說華為的「良心」,在於落實需求 | 2024-01-31 14:44:48
  • 史上最強麒麟旗艦!曝華為P70 Art 3月發 | 2024-01-31 14:44:59
  • 沒訊號也行?華為成功模擬直連衛星上網 | 2024-01-31 14:45:03
  • iPhone 16創新沒驚喜!郭明錤:最快iPhone 17才有重大變化 | 2024-01-31 14:45:07
  • 銘凡 AMD 獨顯迷你主機 HX100G 上架,準系統版定價 4799 元 | 2024-01-31 14:45:11
  • 傳夏普廣州10.5代廠也將被“拋售”,接盤者還可能是中國面板企業 | 2024-01-31 14:52:23
  • 馬斯克做到了!“腦電波”控制電腦即將成為現實 | 2024-01-31 14:52:27
  • 被海信反超,小米電視的價效比模式失靈?|焦點分析 | 2024-01-31 14:52:32
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們