近日,據香港知名國際媒體《南華早報》訊息稱,中國科學家構建了世界上最詳細的人類基因組。
香港觀察人士認為這是一個“里程碑式的事件”,可能對疾病治療的精準醫療有巨大的影響。這個完整、高質量的基因組是從一位來自中國陝西省的“健康年輕”男性村民的DNA中測序的,也是第一個完整的漢族基因組,被稱為T2T-YAO。
透過將患者的遺傳資料與參考基因組進行比較,醫療提供者可以根據個體的遺傳構成和特定的疾病風險制定個性化的治療方案。
T2T-YAO也可以幫助我們更好地理解遺傳和表型特徵的疾病,特別是在中國人群的獨特變異的背景下。
什麼是人類基因組?
人類基因組是指人類細胞中的所有遺傳資訊,包括DNA和RNA。DNA是由四種鹼基(A、T、C、G)組成的雙鏈分子,RNA是由四種鹼基(A、U、C、G)組成的單鏈分子。
DNA和RNA中的鹼基序列決定了人類的遺傳特徵,如眼睛的顏色、血型、性別等。
人類基因組中的DNA分佈在23對染色體上,其中一對是性染色體,決定了性別。
男性的性染色體是XY,女性的性染色體是XX。
每個染色體上有數千個基因,基因是DNA的一段特定區域,編碼了一種或多種蛋白質。蛋白質是人體的重要組成部分,參與了許多生命活動,如代謝、免疫、訊號傳導等。
人類基因組中的RNA主要有三種類型,分別是mRNA、tRNA和rRNA。mRNA是信使RNA,負責將DNA中的遺傳資訊轉錄成蛋白質。
tRNA是轉運RNA,負責將氨基酸運送到蛋白質合成的地方。rRNA是核糖體RNA,負責構成核糖體,參與蛋白質的合成。
人類基因組的大小約為3.2億個鹼基對,相當於一本3000頁的書。
人類基因組中的99.9%的鹼基序列是相同的,只有0.1%的鹼基序列是不同的,這些不同的鹼基序列造成了人類之間的個體差異,也是研究人類遺傳病和藥物反應的重要依據。
為什麼要測序人類基因組?
測序人類基因組的目的是為了揭示人類的遺傳密碼,瞭解人類的起源、進化、健康和疾病。透過測序人類基因組,我們可以發現人類基因組中的變異,如單核苷酸多型性(SNP)、複製數變異(CNV)、插入缺失(INDEL)等,這些變異可能與人類的性狀、表型、疾病風險、藥物反應等有關。
透過分析人類基因組的變異,我們可以為個體提供更精準的診斷、預防、治療和預後,實現精準醫療的目標。
測序人類基因組還可以幫助我們探索人類的歷史,追溯人類的起源、遷徙、混合和適應。
透過比較不同人群、不同地域、不同時間的人類基因組,我們可以重建人類的譜系樹,揭示人類的親緣關係,發現人類的共同祖先,以及人類與其他物種的進化關係。
我們還可以發現人類基因組中的選擇訊號,反映了人類在不同的環境和壓力下的適應性變化。
測序人類基因組也可以促進人類的創新,為生物技術、生物醫藥、生物資訊學等領域提供新的思路和方法。
透過測序人類基因組,我們可以發現人類基因組中的未知功能區域,為基因編輯、基因治療、基因驅動等技術提供新的靶點。
我們還可以利用人類基因組的資料,開發新的演算法、軟體、資料庫、平臺等工具,為基因組學的研究和應用提供更高效和便捷的支援。
人類基因組測序的歷史和進展
人類基因組測序是一個國際性的任務,自從1990年啟動了人類基因組計劃以來,已經取得了巨大的進展。在21世紀初,該計劃生成了人類基因組的第一個序列。
2022年,一個由全球科學家組成的端粒到端粒(T2T)聯盟,呈現了一個完整的人類基因組序列,稱為T2T-CHM13。這個序列填補了20年前測序的人類基因組的一些空白,達到了“連續性和準確性的最高水平”。
T2T-CHM13有望取代目前在研究和醫學中使用的美國參考基因組GRCh38。
然而,儘管T2T-CHM13的組裝是“一個了不起的科學成就”,但它並不代表一個“真實的人類個體”的基因組,因為它來源於一個“水泡狀胎塊”——一個沒有母體染色體,只有兩套複製的父系染色體的不可行的受精卵。
這也意味著T2T-CHM13是一個“單倍體基因組”,只包含一套染色體,沒有Y染色體。但它仍然被認為是一個完整的無縫基因組,因為它測序了從端粒到端粒的染色體。
而中國科學家的參考基因組是一個二倍體基因組,反映了真實的人類基因組,包含了兩套染色體以及Y染色體。
研究人員說,T2T-YAO的質量比目前所有的二倍體組裝都要好,甚至它的單倍體版本也比T2T-CHM13更高質量。“T2T-YAO的所有評估都確保了它作為一個參考基因組的高質量”,也就是說,它是一個真實人類的準確代表。
T2T-YAO是如何構建的?
T2T-YAO的構建是一個複雜而精密的過程,涉及到多種測序和拼接技術的結合。
研究團隊首先從一位來自陝西省的“健康年輕”男性村民的血液中提取了DNA,然後用一種叫做HiFi的測序技術對其進行了測序。HiFi是一種高保真的測序技術,可以生成長而準確的讀段,也就是DNA的一小段序列。
HiFi的讀段長度平均為20千鹼基,而傳統的測序技術的讀段長度只有幾百鹼基。HiFi的讀段準確率也高達99.9%,而傳統的測序技術的讀段準確率只有90%左右。
這些優勢使得HiFi能夠有效地覆蓋人類基因組中的複雜區域,如重複序列、結構變異等,提高了基因組的連續性和準確性。
研究團隊用HiFi測序技術生成了約200億個讀段,總共達到了人類基因組的1000倍的覆蓋度。然後,他們用一種叫做TrioCanu的拼接技術對這些讀段進行了拼接。
TrioCanu是一種基於三代測序的拼接技術,可以將讀段按照父系和母系的來源進行分離,然後分別拼接成兩套染色體。這樣,就可以保留每套染色體上的變異資訊,而不會將它們混合在一起。
TrioCanu還可以利用父系和母系的相似性,來糾正拼接過程中的錯誤,提高了基因組的準確性。
TrioCanu的拼接結果是一個二倍體基因組,包含了23對染色體,其中一對是性染色體。然而,這個二倍體基因組還不是完整的,因為染色體的兩端,也就是端粒,還沒有被測序和拼接。
端粒是一種保護染色體穩定性的結構,由重複的鹼基序列組成。端粒的長度和序列在不同的個體和細胞中是不同的,而且隨著年齡的增長而縮短。端粒的測序和拼接是一個極具挑戰的任務,因為它們的重複性和變異性都很高,很難用傳統的測序和拼接技術來處理。
為了解決這個問題,研究團隊用一種叫做Nanopore的測序技術對端粒進行了測序。Nanopore是一種基於奈米孔的測序技術,可以直接測量DNA分子透過一個微小的孔洞時產生的電訊號,從而推斷出DNA的序列。Nanopore的優點是可以生成非常長的讀段,甚至可以達到數百萬個鹼基。
這樣,就可以覆蓋整個端粒的長度,而不會被切斷或丟失。Nanopore的缺點是讀段的準確率不高,只有80%左右。這就需要用其他的技術來校正和驗證。
研究團隊用Nanopore測序技術生成了約10萬個讀段,總共達到了人類基因組的10倍的覆蓋度。然後,他們用一種叫做T2T-Assembler的拼接技術對這些讀段進行了拼接。
T2T-Assembler是一種專門用於端粒到端粒的拼接技術,可以將讀段按照父系和母系的來源進行分離,然後分別拼接成兩套端粒。這樣,就可以保留每套端粒上的變異資訊,而不會將它們混合在一起。
T2T-Assembler還可以利用其他的測序資料,如HiFi和TrioCanu的結果,來糾正拼接過程中的錯誤,提高了端粒的準確性。
T2T-Assembler的拼接結果是一個完整的二倍體基因組,包含了23對染色體,其中一對是性染色體,每條染色體都從端粒到端粒地測序和拼接。
這個二倍體基因組被命名為T2T-YAO,以紀念提供血液樣本的村民和中國最早的帝王之一堯。T2T-YAO的質量被評估為非常高,達到了目前人類基因組測序的最高標準。
中國科學家構建的世界最詳盡人類基因組T2T-YAO,不僅在科學上具有里程碑意義,也為精準醫學及對中國人群遺傳特性的研究開闢了新的視角和可能性。隨著科技的進步和研究的深入,我們可以期待在未來更多地瞭解人類遺傳的奧秘,以及這些知識如何被應用於提高人類健康和生活質量。中國在這一領域的突破,不僅標誌著其科技實力的增強,也為全球醫學研究與健康事業的發展貢獻了重要力量。