*僅供醫學專業人士閱讀參考
eHCC-pred模型將HCC早期診斷的準確率從78.15%提升至97%。
肝細胞癌(HCC)的診斷通常依賴於影像學檢查或組織活檢。儘管大多數HCC病例在影像學上具有特異性表現,但仍有約10%的腫瘤(在直徑為1-2cm的腫瘤中,這一比例可高達30%)缺乏典型的影像學特徵[1]。在臨床上懷疑HCC但影像學特徵不典型的情況下,不應推遲進行活檢或安排複查。若複查結果仍然不明確,則應進行活檢[2]。然而,活檢樣本若採集位置不精確,可能導致誤診(即假陰性結果)。對於從非腫瘤(如肝硬化或正常)組織中採集到的HCC活檢樣本,小活檢樣本的診斷假陰性率大約在30%-50%[3,4]。因此,開發新的分子標誌物對於早期HCC的診斷尤為關鍵,特別是在活檢樣本位置可能存在偏差的情況下。
近期,一項研究利用大樣本資料,結合最小冗餘最大相關性(mRMR)和最大相關性最大距離(MRMD)兩種特徵選擇方法,並融合八種基於機器學習的演算法,開發出一種用於HCC早期預測的模型(eHCC-pred)。該模型將HCC早期診斷的準確率從78.15%提升至97%,有望在個體化水平上穩定地應用於臨床實踐,助力HCC的早期診斷。該模型可於http://www.dulab.com.cn/eHCC-pred/免費獲取[5]。醫學界腫瘤頻道整理該研究內容如下,以供參考。
研究方法
本項研究採用了來自三個公共資料庫(GEO、ICGC和TCGA)的46個數據集,共計5586個組織樣本,其中包含4045個肝細胞癌(HCC)樣本、416個未發生HCC的肝硬化(CwoHCC)樣本、334個伴有HCC的肝硬化(CwHCC)樣本以及791個未發生HCC的正常肝組織(NwHCC)樣本。
GEO資料庫的44個轉錄組資料集包含3431個HCC樣本、416個CwoHCC樣本、334個CwHCC樣本和741個NwHCC樣本。資料透過Affymetrix、Agilent和Illumina平臺檢測,Affymetrix晶片資料集經RMA方法處理,Agilent和Illumina晶片資料集使用預處理資料。ICGC和TCGA資料集分別包含243個和371個HCC樣本,以及50個NwHCC樣本。研究還使用了HPA資料庫下載的2902個分泌基因資料。
研究結果
▌1.HCC預測模型的推導
本研究的整體分析流程如圖1所示。首先,基於988個HCC樣本和332個CwoHCC樣本的基因表達譜,分別獲得了25,341,086對和20,559,429對穩定的基因對。在這兩組基因對中,有5765對基因對在HCC組織和CwoHCC組織之間表現出穩定的逆轉關係。接著,透過篩選2902個分泌基因中的基因對,最終獲得了242對基因對,這些基因對中的基因i和基因j均為分泌基因。隨後,基於包含242個特徵(基因對)的新資料集提取了最佳特徵。
圖1. 整體分析流程
表1展示了基於準確率、F1分數適應函式和AUC值對不同預測模型分類效能的比較。表1的結果表明,包括mRMR + KNN、mRMR + SVM、mRMR + LR、mRMR + XGBoost、mRMR + LMT、MRMD + KNN、MRMD + SVM、MRMD + LR和MRMD + LMT在內的九種預測模型,在所有效能指標上均表現優異,準確率、F1分數和AUC值均達到1。
在這九種預測模型中,mRMR + KNN和mRMR + SVM的基因對數量最少,僅包含11對基因對(表2)。
▌2.HCC預測模型的驗證
使用獨立資料集(包括測試集、GEO資料集、ICGC資料集和TCGA資料集)對各種演算法的效能進行了驗證。如表3所示,對於3057個HCC樣本和84個CwoHCC樣本,MRMD + SVM預測模型(包含28對基因對)在獨立資料集中獲得了最高的準確率和F1分數,其準確率、F1分數和AUC值分別為0.9834、0.9915和0.9278。而mRMR + SVM預測模型(包含11對基因對)在獨立資料集中獲得了最高的AUC值0.9384,高於其他預測模型。因此,在後續分析中重點關注這三個預測模型。他們在活檢樣本和手術樣本中的詳細驗證結果如表4所示。
活檢樣本
在測試集(29個HCC樣本和48個CwoHCC樣本)中,mRMR + SVM預測模型和mRMR + KNN預測模型均實現了1的敏感性和1的特異性,而MRMD + SVM預測模型的敏感性為1,特異性為0.8542。在GEO活檢資料集中(GSE121248, GSE47197),mRMR + SVM預測模型正確分類了96.18%的HCC樣本,mRMR + KNN預測模型正確分類了66.41%的HCC樣本,而MRMD + SVM預測模型對131個HCC樣本的分類準確率達到了100%。
手術樣本
在測試集(220個HCC樣本和36個CwoHCC樣本)中,mRMR + SVM預測模型和mRMR + KNN預測模型的敏感性和特異性均為1,而MRMD + SVM預測模型的敏感性為1,特異性為0.8889。
這些結果表明,在使用活檢樣本時,mRMR + SVM預測模型、mRMR + KNN預測模型和MRMD + SVM預測模型均能夠準確區分HCC和CwoHCC。
▌3.與現有預測模型的比較
對於1800個HCC樣本,Ao教授團體開發的模型、本研究團隊既往開發的模型以及本次提出的mRMR + SVM預測模型和MRMD + SVM預測模型的準確度分別為0.6639、0.7656、0.8428和0.9872。對於1931個HCC樣本,Ao方法的準確度為0.6572,本研究團隊既往方法的準確度為0.7815,而mRMR + SVM預測模型和MRMD + SVM預測模型的準確度分別提高到0.8503和0.97。上述結果表明,mRMR + SVM預測模型和MRMD + SVM預測模型在與現有預測模型相比,表現更為優越。
最終,本研究成功開發了一種基於機器學習的HCC早期診斷預測模型eHCC-pred。該模型集成了兩種不同的機器學習預測演算法:MRMD + SVM和mRMR + SVM,將HCC早期識別的準確率從78.15%提升至97%,將為臨床醫生提供了更為精確的工具,以期在HCC的早期階段就進行有效的干預和治療。
精彩資訊等你來
參考文獻:
[1]Llovet JM, Kelley RK, Villanueva A, et al. Hepatocellular carcinoma. Nat Rev Dis Primers. 2021 Jan 21;7(1):6. doi: 10.1038/s41572-020-00240-3. Erratum in: Nat Rev Dis Primers. 2024 Feb 12;10(1):10.
[2]Marrero JA, Kulik LM, Sirlin CB, et al. Diagnosis, Staging, and Management of Hepatocellular Carcinoma: 2018 Practice Guidance by the American Association for the Study of Liver Diseases. Hepatology. 2018 Aug;68(2):723-750.
[3]Forner A, Llovet JM, Bruix J. Hepatocellular carcinoma. Lancet. 2012 Mar 31;379(9822):1245-55.
[4]Villanueva A, Minguez B, Forner A, et al. Hepatocellular carcinoma: novel molecular approaches for diagnosis, prognosis, and therapy. Annu Rev Med. 2010;61:317-28.
[5]Zhang ZM, Huang Y, Liu G, et al. Development of machine learning-based predictors for early diagnosis of hepatocellular carcinoma. Sci Rep. 2024 Mar 4;14(1):5274.
審批編號:CN-150407 有效期至:2025-12-18
本材料由阿斯利康提供,僅供醫療衛生專業人士參考