導語
微環境是由癌細胞、成纖維細胞和免疫細胞等多種細胞型別組成的複雜“混合物”。精準評估腫瘤的細胞組成,對於深入理解腫瘤的發生發展、最佳化癌症診療策略至關重要。本週二(12月3日)晚的「生命複雜性」讀書會,將由香港浸會大學副教授田亮和博士生熊昕介紹他們利用深度學習預測腫瘤微環境中細胞組成的最新研究成果。這項研究開發了一種新的細胞解卷積演算法 DeSide,能夠基於腫瘤樣本的批次RNA測序資料準確推斷不同細胞型別的比例。
在當今生命科學的研究中,理解生物體的複雜性成為一個關鍵的科學挑戰。希望從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要資料,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關係,激發新的研究思路和合作專案。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入!
內容簡介
如何理解生物系統的複雜性是生命科學研究的關鍵挑戰。就像一杯混合果汁,我們知道它包含、橙子和獼猴桃,卻不知道它們的具體比例。而腫瘤微環境也是由多種細胞型別組成的複雜“混合物”,包括癌細胞、和免疫細胞等。想要復刻果汁的味道需要解析成分比例,而精準評估腫瘤的細胞組成,對於理解腫瘤發生發展、最佳化癌症診療策略至關重要,這就像是從“細胞果汁”中解析“配方”。
傳統的實驗方法 (如流式細胞術和單細胞RNA測序) 雖然能夠深入解析細胞組成,但存在成本高昂且難以全面捕獲所有細胞型別的侷限性。研究者們開發了多種基於成本更低、操作更簡便的批次RNA測序資料的計算方法來預測不同細胞型別比例。然而,使用單一模型精準預測多種腫瘤中各類細胞的丰度仍然面臨巨大挑戰。為此,我們團隊基於深度學習技術開發了一種新的細胞解卷積演算法 DeSide,可以從腫瘤樣本的批次RNA測序資料中準確推斷細胞組成。
DeSide整合了來自多種實體瘤的單細胞RNA測序資料集,構建了一個具有代表性的參考資料集,並透過創新的取樣方法和資料質控策略合成高質量的虛擬腫瘤表達資料,結合生物訊號通路與基因表達資料,並利用針對腫瘤微環境中各類細胞型別基因表達特徵專門設計的深度神經網路架構,使其能夠準確估算多種實體瘤中不同細胞型別的比例,並展現出對未訓練腫瘤型別的強泛化能力。
更重要的是,DeSide預測的細胞比例可以有效區分患者的疾病進展情況,為探索細胞間相互作用、最佳化腫瘤診療策略提供了新工具。
參考文獻
Balkwill, F. R., Capasso, M. & Hagemann, T. The tumor microenvironment at a glance. J. Cell Sci. 125, 5591–5596 (2012).
Garmire, L. X. et al. Challenges and perspectives in computational deconvolution of genomics data. Nat. Methods 21, 391–400 (2024).
Xiong, Xin, et al.DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment. Proceedings of the National Academy of Sciences 121.46 (2024): e2407096121.
主講人
田亮,香港浸會大學物理系副教授、副系主任,高效能叢集計算中心主任,致力於在一系列複雜系統中開展基於統計物理學、網路科學、系統生物學和人工智慧的原理與方法的跨學科研究。工作核心是透過資料探勘和人工智慧技術識別和提取相關統計量、資料維度和資料特徵,構建統計物理模型對複雜系統進行模擬模擬研究。透過研究,揭示和理解複雜系統的湧現屬性和組織原理,以及系統中結構和功能之間複雜的相互作用。
熊昕,香港浸會大學物理系博士研究生,師從田亮副教授。研究方向為生物資訊學,尤其專注於高維多組學資料分析。研究中融合了統計學、機器學習和統計物理等多種方法,致力於開發新的資料分析工具。此外,他還對利用多組學資料研究生物學、免疫學和神經科學領域的基礎問題有很濃厚的興趣。
時間:2024年12月3日(本週二)晚19:00-21:00
報名參與讀書會:
斑圖連結:https://pattern.swarma.org/mobile/study_group_issue/829?from=wechat
掃碼參與,加入群聊,獲取系列讀書會回看許可權,加入生命複雜性社群,與社群的一線科研工作者溝通交流,共同推動這一前沿領域的發展。
報名成為主講人
讀書會成員均可以在讀書會期間申請成為主講人。主講人作為讀書會成員,均遵循內容共創共享機制,可以獲得報名費退款,並共享本讀書會產生的所有內容資源。
詳情請見:
DeSide:深度學習方法
精準預測多種腫瘤內的細胞丰度
腫瘤微環境是一個由多種型別細胞組成的複雜生態系統。實體腫瘤內,除了癌細胞之外,還存在數量可觀的血管內皮細胞、成纖維細胞、以及多種免疫細胞,如腫瘤相關巨噬細胞和腫瘤浸潤淋巴細胞等。大量研究表明,這些不同型別細胞的比例,在多種癌症型別中與患者的病情進展密切相關。因此,精準量化腫瘤微環境中各類細胞的比例,對於深入理解腫瘤的發生與發展規律、最佳化癌症診療策略等具有重要意義。
在現有的技術中,流式細胞術和單細胞RNA測序(scRNA-seq)等實驗方法能夠直接測定腫瘤微環境中的細胞比例,但這些方法通常成本較高。為解決這一問題,研究人員開發了多種計算方法以基於低成本的批次RNA測序(bulk RNA-seq)資料來估算不同型別細胞的比例,例如 EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra 等。然而,由於不同腫瘤型別中癌細胞的基因表達譜差異很大,使用單一模型精準預測多種腫瘤中各類細胞的丰度仍然是一個挑戰。
2024年11月8日,中國科學院深圳先進技術研究院李雪飛副研究員團隊與香港浸會大學田亮副教授團隊合作,在《美國國家科學院院刊》(PNAS)發表了題為:DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment 的研究論文。
該研究開發了一種基於深度學習與公開單細胞資料集的解卷積演算法,能夠較精確地估算19種實體腫瘤中16種細胞型別的丰度。
論文題目:DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment 論文連結: https://www.pnas.org/doi/10.1073/pnas.2407096121
合成高質量的訓練集
首先,該研究整合了來源於6種實體腫瘤型別的12個scRNA-seq資料集,為後續合成虛擬腫瘤bulk RNA-seq資料(訓練集)提供了更為全面的參考資料。其次,該研究提出了一種新的取樣方法segment sampling,從而使得所合成的虛擬腫瘤bulk RNA-seq資料中包含更多樣的細胞比例組合。此外,在合成bulk RNA-seq資料時,該研究透過對基因的過濾(gene-level filtering)來保留與每種細胞型別高度相關的基因,以降低輸入資料的維度;再對錶達譜進行過濾(GEP-level filtering)以保留與真實腫瘤表達譜相似度較高的樣本。這些創新點共同有效提升了所合成的虛擬腫瘤bulk RNA-seq資料的質量。
深度神經網路結構的創新點
在深度神經網路結構中,DeSide創新性地採用了兩個全連線網路:pathway網路和GEP網路,分別從生物訊號通路(pathway)和基因表達譜(gene expression profile,GEP)中提取特徵資訊。其中,pathway網路透過引入粗顆粒度的特徵,有效提升了輸入資料的多樣性。
此外,考慮到腫瘤細胞的基因表達譜在不同癌症型別之間差異較大,DeSide採用了sigmoid函式作為DNN輸出層的啟用函式,使輸出總和處於[0,1]區間。這一設計先預測免疫細胞等非癌細胞型別的比例,再透過1減去所有非癌細胞的比例來估算腫瘤細胞的比例,從而有效減少了直接預測腫瘤細胞比例所帶來的誤差。值得指出的是,在利用深度神經網路預測細胞比例的研究方向上,DeSide是首個引入該策略的演算法。
圖1. (a)DeSide的深度神經網路(DNN)模型結構;(b)合成虛擬腫瘤的 bulk RNA-seq 基因表達譜(GEP)的流程。
與其它演算法預測效果的比較
該研究系統對比了DeSide與現有演算法在預測腫瘤微環境內細胞比例的準確性。結果表明,DeSide能較好地預測多種腫瘤型別內不同細胞型別的比例(圖2 a,b)。同時,即便是與依賴參考資料的演算法(Reference-based model)相比較,DeSide在特定腫瘤型別上的表現依然出色(圖2c)。值得指出的是,DeSide能較準確地預測訓練集中未包含的癌症型別,顯示了較好的泛化能力。
圖2. 對比DeSide與其它演算法預測bulk RNA-seq資料中腫瘤細胞比例的能力。CCC為預測的腫瘤細胞比例與基於基因複製數所估算的腫瘤純度之間的一致相關性係數(concordance correlation coefficient, CCC)。資料來源於癌症基因組圖譜(The Cancer Genome Atlas, TCGA)資料庫。
DeSide在臨床預後分析中的應用價值
該項研究透過患者生存分析(Survival analysis)探索了DeSide在臨床應用中的潛在價值。研究結果表明,基於DeSide預測的細胞比例能夠有效的將患者按照病情進展情況進行評估分型,即某些細胞型別或其組合的丰度與患者的生存顯著相關(圖3)。未來,DeSide有望進一步幫助探究不同細胞之間關鍵的相互作用,從而為尋找潛在的臨床治療靶點提供新的可能。
圖3. 基於DeSide預測公開資料集內不同腫瘤的不同細胞型別的比例,從而對患者進行分型與生存分析。
結論和展望
該研究所開發的DeSide演算法基於公開的單細胞資料集與深度學習方法,能夠較為準確、高效地估算19種實體腫瘤bulk RNA-seq測序樣本中16種細胞型別的比例。這為深入理解腫瘤發生與發展機制、評估患者預後和制定精準治療策略提供了有力的方法與資料支援。
中國科學院深圳先進技術研究院合成生物學研究所合成生物進化研究中心李雪飛副研究員、香港浸會大學物理系田亮副教授為論文共同通訊作者。香港浸會大學四年級博士生熊昕與中國科學院深圳先進技術研究院研究助理劉燁蓉為論文共同第一作者。熊昕於2020-2021年在李雪飛課題組擔任研究助理期間開啟了該課題的研究,隨後,經由李雪飛推薦赴田亮課題組攻讀博士學位。兩個課題組透過緊密合作,聯合完成了該項研究。
生命複雜性讀書會:
生命複雜系統的構成原理
在生物學中心法則的起點,基因作為生命複雜系統的遺傳資訊載體,在生命週期內穩定存在;而位於中心法則末端的蛋白質,其組織構成和時空變化的複雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發的邊緣。如此海量的資料如何幫助我們揭示宇宙中最複雜的物質系統——“人體”的構成原理和設計原理?闡釋人類發育、衰老和重大疾病的發生機制?
集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創新中心博士後唐詩婕,共同發起「」讀書會,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要資料,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關係,激發新的研究思路和合作專案。讀書會從2024年8月6日開始,每週二晚19:00-21:00進行,持續時間預計10-12周。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入!
詳情請見: