編輯丨王多魚
排版丨水成文
當讀到“產生一條多肽鏈或功能RNA所需的全部核苷酸序列”的科學定義時,多數人都會露出一頭霧水的表情。但當聽到“生命之書、生命的密碼、生命的鑰匙、遺傳的藍圖”的比擬時,大家都會下意識報出:這是DNA!
對於生命而言,DNA的重要性不言而喻。它既支撐生命的構造和效能,也儲存著個體生長、孕育、凋亡“從生到死”的全部相關資訊。正因如此,著眼於健康與疾病的謎題,人類不僅需要翻開、閱讀這本生命之書,也亟需“讀完”它——
2024年12月5日,西湖大學生命科學學院、西湖實驗室俞曉春團隊再國際頂尖學術期刊Science上發表了題為:The complete telomere-to-telomere sequence of a mouse genome(完整的端粒到端粒小鼠參考基因組序列)的研究論文,報道了該團隊在解析小鼠參考基因組方面取得的重要突破。這意味著人類歷史上第一次看清小鼠基因組DNA全貌。
現在,請用上一些想象力,一起走入基因組DNA的殿堂,造訪大自然塑造的“生命密碼”。
想象你的面前出現了一座汗牛充棟的圖書館,這是隸屬於某個人類同胞的一個細胞核。你步入其中,看到了幾十排標註著“染色體”的書架。你隨機選了一個架子,抽出了幾本書,發現書的封面上都寫著“DNA”。接著,你翻到其中一本的目錄頁,上面指示了“本書共含有X個基因”。你隨意瀏覽了不同基因的章節,意識到這些篇章僅由四個字母構成——A、T、C、G——這些叫作“鹼基”的字母不斷變換順序、排列組合,最終寫完了全書……
很好,現在你已經瞭解了基因組DNA的基本面貌。
正如開頭所述,如果我們想獲得一個生命體的所有遺傳資訊,就需要知曉全部基因組DNA的情況,這意味著要閱讀完所有染色體“書架”上的DNA之書,知道這些書的每一個字母,即A/T/C/G是如何排列的。關注生物體所有DNA(即整個基因組)的科學,就是基因組學。迄今,基因組學領域的一個重要研究目標,正是獲得完整的、精確的基因組序列,這對於我們理解基因組的結構和功能至關重要。
事實上,讀取這些鹼基字母排序的過程,正是“大名鼎鼎”的基因組DNA測序。
1977年,弗雷德裡克·桑格發明了第一代測序技術,特點是隻能測試一個基因的某個部分,最多一個基因。本世紀初,第二代測序技術問世,它克服了前一代的缺點,一次能讀取成千上萬的短DNA片段,因此也被稱作高通量測序技術;但它依然存在癥結:能讀取的DNA片段過短,通常在100-300個鹼基對(bp)之間。2010年左右,第三代測序技術誕生,實現了對每一條DNA分子的單獨測序;換句話說,現在我們能夠讀取較長的DNA片段了,可以達到10-50千鹼基對(kb,1kb=1000bp)甚至更長。
由於人類基因組包含大約30億個鹼基對,能夠讀取更長片段的第三代基因測序技術的出現,為科學家破解完整的人類基因圖譜的程序按下加速鍵。2022年3月31日,《科學》(Science)發表文章報道了名為“端粒到端粒聯盟”的國際科學團隊,完成了第一個完整的、無間隙的人類基因組序列,填補了2003年“人類基因組計劃”遺留下的8%尚未讀取的基因區域。
在大洋彼岸的中國浙江杭州的西湖大學,俞曉春實驗室當時的博後、現在的助理研究員李麒麟及時關注到了這條新聞。這令這個團隊感到無比振奮,因為他們日常“打交道”的小鼠身上,正存在相似的瓶頸。目前小鼠的基因“檔案”中,最完整的是參考基因組GRCm39,同樣也存在約7%-8%未被解析的區域。
西湖大學生命科學學院科研副院長、西湖實驗室科研副主任俞曉春教授長期致力於DNA損傷修復機制和癌症發生發展的研究;簡單來說,就是DNA受損引發的癌症的診斷、檢測與治療。而小鼠,是生命科學研究中最常見的實驗動物和模式生物,這是因為許多生物實驗不宜在人體內進行,因此,小鼠的基因組DNA資訊直接關係到人類健康的探索。也正因如此,人類對小鼠基因組DNA的認知與這個團隊的研究密切相關。
既然人類的“基因拼圖”已完成,想必小鼠的“拼圖”也勝利在望了?令他們沒想到的是,這一等就是一年。
親自做基因測序,對俞曉春實驗室來說,實屬一個“無心插柳柳成蔭”的課題:直到2023年4月,他們都在等待兩家資金雄厚、早已對外宣佈下場的美國與英國科研機構做完併發布小鼠的完整基因組DNA圖譜。
為什麼他們如此關心小鼠這尚缺的7%-8%序列?這是因為,這些未知的基因組DNA裡或許隱藏著一些至今無法解釋的遺傳性疾病的謎底。
這些“空白”尤其存在於異染色質和核糖體DNA(rDNA)區域。這些區域富含重複的基因序列,即一些反覆出現的,看似近乎一模一樣、但實則有細微區別的片段——你可以想象為許多塊極其相似的拼圖。二代基因測序技術僅能測出其中的一段(且由二代技術完成的小鼠基因組圖譜中還有錯誤),對完整的排序序列“束手無策”;而三代技術可以“完全看清”。
時至2023年的春天,遲遲不見歐美的實驗室釋出“大新聞”,俞曉春實驗室最終決定自己動手拼完這幅小鼠基因組“拼圖”。“(全球)剩下的人一直在等,但我們不想等了。”俞曉春回憶說。
這個誕生於意外的課題,研究過程相當順利,歷時一年就完成了。
簡單來講,俞曉春團隊綜合了眾多三代基因測序技術,讓它們互相補足,開發了一把能夠充分挖掘小鼠基因的“金鏟子”。他們以最常用的小鼠C57BL/6的單倍體胚胎幹細胞(mhaESC)為樣本,進行了基因測序和組裝,獲得了長度為2.77 Gbp(表示十億個鹼基對)的完整的高質量小鼠參考基因組序列,其中包含215.23 Mbp(表示一百萬個鹼基對)先前未被鑑定的序列,填補了約7.7%的基因組空白。
mhaESC基因組與先前參考基因組的共線性比對結果
如果你對他們基因組DNA “拼圖”的步驟感興趣,這個流程大致是這樣的:第一步,測序技術把所有拼圖(即片段)上的圖案(即鹼基對)讀完;接著,計算機對這些資訊進行資料處理;最後,複雜演算法會完成“拼裝”(即基因組組裝),形成完整的全貌。這個過程涉及到了PacBio HiFi、Oxford Nanopore超長、Illumina短讀長、Hi-C和BioNano光學圖譜等多項基因測序技術。
那麼,這些研究人員具體取得了哪些關於小鼠基因的新發現呢?
首先,發現了新的蛋白質編碼基因。顧名思義,這些基因的作用是編碼對應的蛋白質。與先前的參考基因組版本相比,該研究額外註釋了639個蛋白質編碼基因,其中先前未被發現的全新的蛋白質編碼基因有140個(這是因為639個基因中部分為已知基因的“重複”複製)。這些新的蛋白質編碼基因可能參與多種生物學過程,為未來的研究提供了新的方向。
第二,較精確地“看清”核糖體DNA的基因序列。核糖體是細胞內的“蛋白質工廠”,負責合成蛋白質。核糖體DNA是細胞中的一種特殊DNA,它專門負責編碼核糖體的RNA(rRNA)——一種核糖體的重要組成部分,幫助核糖體合成蛋白。用簡潔的比擬來說,核糖體DNA給出了細胞內rRNA的“藍圖”。這個發現為進一步解析核糖體潛在的蛋白質翻譯功能的差異性提供參考。
第三,解析了著絲粒區域的基因序列詳情。著絲粒是染色體上的一個特殊區域,幫助染色體在細胞分裂時,將遺傳物質平均分配到兩個新的細胞中。本研究的結果顯示,小鼠各染色體之間的著絲粒長度具有明顯差異,且序列內部富含轉座元件和片段重複(SD),同時還有散在的基因分佈,表明該區域可能會進行活躍的轉錄和轉座事件,驅動著絲粒區域進行適應性改變等行為。對著絲粒區域的解析,有助於理解因著絲粒功能缺陷導致的染色體重排、非整倍性等相關疾病的發病機制。
從科學意義上來說,俞曉春實驗室的這項研究,透過綜合“長讀長”第三代測序技術成功完成了小鼠基因組的端粒到端粒組裝,填補了現有參考基因組中的空白區域,揭示了新的基因和結構變異,“拼完”了小鼠基因組圖譜的“拼圖”。這些發現不僅提高了對小鼠基因組結構和功能的理解,也為基因組學研究提供了重要的技術參考和資料資源。
在這項研究中,兩位第一作者,分別發揮了科研所長,劉俊麗助理研究員負責溼實驗及論文圖片,李麒麟助理研究員負責幹實驗及文稿;通訊作者俞曉春教授負責“掌舵”課題的大方向以及論文的完善。
“你們在研究過程中遇到最大的難點是什麼?”這個問題竟然有朝一日成為了實驗室“答不上來”的問題。正如前文所言,這個課題進展勢如破竹,投稿過程也十分順利。
但要在科研的疆域取得成果,並非一日之功。這項研究的順利開展,既得益於俞曉春自在美國密歇根大學醫學院內科系成為獨立PI後,對染色體近20年的研究積累;同時,也與兩位一作作者歷經過的、作為一名科研工作者的磨鍊與自我調整息息相關。
劉俊麗,是西湖實驗室第一批“開拓學者”之一,曾在科研的路途上迷茫過、也曾經歷過gap的時光,但她最終選擇加入俞曉春實驗室,儘管那意味著要完全改變研究方向,需要從“0”開始。如今,她分享說:“做科研,任何一個方向都有研究意義。我覺得實驗取得的任何結果都能帶給我快樂,這是為什麼我要堅持做科研的原因。”
如果說這個課題有一個發起人,那非李麒麟莫屬:他是俞曉春團隊第一個注意到人類基因組序列完成的人。出於對遺傳學和基因組學的興趣,他從大學本科直至在美國做博後階段都專注於生物資訊學。李麒麟說:“但我發現做純資料並不能對實際情況有很好的瞭解,所以最後我選擇了俞老師的實驗室,這裡有溼實驗的實時結果給出反饋,這樣我再去做資料分析,研究能更好地開展。”
當然,俞曉春實驗室劍指的始終並不是小鼠基因組真容本身,而是希望利用這把“基因組之鏟”探索遺傳性癌症、發育性疾病未解的致病機理。“支線”的故事已完成,接下來,讓我們一起靜待這個實驗室的“主線”誕生更多助力人類攻克頑疾的成果。
課題組簡介與招聘資訊
俞曉春教授長期致力於DNA損傷修復機制、基因組不穩定、染色質重塑和表觀遺傳等相關研究。課題組長期招收具有相關專業背景的博士後,歡迎有興趣的青年學者加入!聯絡方式:[email protected]
西湖實驗室助理研究員劉俊麗博士和李麒麟博士為論文共同第一作者,西湖大學生命科學學院科研副院長、西湖實驗室科研副主任俞曉春教授為通訊作者。該研究得到國家自然科學基金、浙江省自然科學基金、浙江省“尖兵”&“領雁”專案、杭州市領軍型創新創業團隊、西湖教育基金會和西湖實驗室提供的經費支援,同時感謝西湖大學生物醫學實驗技術中心、實驗動物中心及高效能計算中心等平臺的支援。
論文連結:
https://www.science.org/doi/10.1126/science.adq8191