文獻精讀：開發基於機器學習的HCC早期診斷預測模型

*僅供醫學專業人士閱讀參考

eHCC-pred模型將HCC早期診斷的準確率從78.15%提升至97%。

肝細胞癌（HCC）的診斷通常依賴於影像學檢查或組織活檢。儘管大多數HCC病例在影像學上具有特異性表現，但仍有約10%的腫瘤（在直徑為1-2cm的腫瘤中，這一比例可高達30%）缺乏典型的影像學特徵[1]。在臨床上懷疑HCC但影像學特徵不典型的情況下，不應推遲進行活檢或安排複查。若複查結果仍然不明確，則應進行活檢[2]。然而，活檢樣本若採集位置不精確，可能導致誤診（即假陰性結果）。對於從非腫瘤（如肝硬化或正常）組織中採集到的HCC活檢樣本，小活檢樣本的診斷假陰性率大約在30%-50%[3,4]。因此，開發新的分子標誌物對於早期HCC的診斷尤為關鍵，特別是在活檢樣本位置可能存在偏差的情況下。

近期，一項研究利用大樣本資料，結合最小冗餘最大相關性（mRMR）和最大相關性最大距離（MRMD）兩種特徵選擇方法，並融合八種基於機器學習的演算法，開發出一種用於HCC早期預測的模型（eHCC-pred）。該模型將HCC早期診斷的準確率從78.15%提升至97%，有望在個體化水平上穩定地應用於臨床實踐，助力HCC的早期診斷。該模型可於http://www.dulab.com.cn/eHCC-pred/免費獲取[5]。醫學界腫瘤頻道整理該研究內容如下，以供參考。

研究方法

本項研究採用了來自三個公共資料庫（GEO、ICGC和TCGA）的46個數據集，共計5586個組織樣本，其中包含4045個肝細胞癌（HCC）樣本、416個未發生HCC的肝硬化（CwoHCC）樣本、334個伴有HCC的肝硬化（CwHCC）樣本以及791個未發生HCC的正常肝組織（NwHCC）樣本。

GEO資料庫的44個轉錄組資料集包含3431個HCC樣本、416個CwoHCC樣本、334個CwHCC樣本和741個NwHCC樣本。資料透過Affymetrix、Agilent和Illumina平臺檢測，Affymetrix晶片資料集經RMA方法處理，Agilent和Illumina晶片資料集使用預處理資料。ICGC和TCGA資料集分別包含243個和371個HCC樣本，以及50個NwHCC樣本。研究還使用了HPA資料庫下載的2902個分泌基因資料。

研究結果

▌1.HCC預測模型的推導

本研究的整體分析流程如圖1所示。首先，基於988個HCC樣本和332個CwoHCC樣本的基因表達譜，分別獲得了25,341,086對和20,559,429對穩定的基因對。在這兩組基因對中，有5765對基因對在HCC組織和CwoHCC組織之間表現出穩定的逆轉關係。接著，透過篩選2902個分泌基因中的基因對，最終獲得了242對基因對，這些基因對中的基因i和基因j均為分泌基因。隨後，基於包含242個特徵（基因對）的新資料集提取了最佳特徵。

圖1. 整體分析流程

表1展示了基於準確率、F1分數適應函式和AUC值對不同預測模型分類效能的比較。表1的結果表明，包括mRMR + KNN、mRMR + SVM、mRMR + LR、mRMR + XGBoost、mRMR + LMT、MRMD + KNN、MRMD + SVM、MRMD + LR和MRMD + LMT在內的九種預測模型，在所有效能指標上均表現優異，準確率、F1分數和AUC值均達到1。

在這九種預測模型中，mRMR + KNN和mRMR + SVM的基因對數量最少，僅包含11對基因對（表2）。

▌2.HCC預測模型的驗證

使用獨立資料集（包括測試集、GEO資料集、ICGC資料集和TCGA資料集）對各種演算法的效能進行了驗證。如表3所示，對於3057個HCC樣本和84個CwoHCC樣本，MRMD + SVM預測模型（包含28對基因對）在獨立資料集中獲得了最高的準確率和F1分數，其準確率、F1分數和AUC值分別為0.9834、0.9915和0.9278。而mRMR + SVM預測模型（包含11對基因對）在獨立資料集中獲得了最高的AUC值0.9384，高於其他預測模型。因此，在後續分析中重點關注這三個預測模型。他們在活檢樣本和手術樣本中的詳細驗證結果如表4所示。

活檢樣本

在測試集（29個HCC樣本和48個CwoHCC樣本）中，mRMR + SVM預測模型和mRMR + KNN預測模型均實現了1的敏感性和1的特異性，而MRMD + SVM預測模型的敏感性為1，特異性為0.8542。在GEO活檢資料集中（GSE121248, GSE47197），mRMR + SVM預測模型正確分類了96.18%的HCC樣本，mRMR + KNN預測模型正確分類了66.41%的HCC樣本，而MRMD + SVM預測模型對131個HCC樣本的分類準確率達到了100%。

手術樣本

在測試集（220個HCC樣本和36個CwoHCC樣本）中，mRMR + SVM預測模型和mRMR + KNN預測模型的敏感性和特異性均為1，而MRMD + SVM預測模型的敏感性為1，特異性為0.8889。

這些結果表明，在使用活檢樣本時，mRMR + SVM預測模型、mRMR + KNN預測模型和MRMD + SVM預測模型均能夠準確區分HCC和CwoHCC。

▌3.與現有預測模型的比較

對於1800個HCC樣本，Ao教授團體開發的模型、本研究團隊既往開發的模型以及本次提出的mRMR + SVM預測模型和MRMD + SVM預測模型的準確度分別為0.6639、0.7656、0.8428和0.9872。對於1931個HCC樣本，Ao方法的準確度為0.6572，本研究團隊既往方法的準確度為0.7815，而mRMR + SVM預測模型和MRMD + SVM預測模型的準確度分別提高到0.8503和0.97。上述結果表明，mRMR + SVM預測模型和MRMD + SVM預測模型在與現有預測模型相比，表現更為優越。

最終，本研究成功開發了一種基於機器學習的HCC早期診斷預測模型eHCC-pred。該模型集成了兩種不同的機器學習預測演算法：MRMD + SVM和mRMR + SVM，將HCC早期識別的準確率從78.15%提升至97%，將為臨床醫生提供了更為精確的工具，以期在HCC的早期階段就進行有效的干預和治療。

精彩資訊等你來

參考文獻：

[1]Llovet JM, Kelley RK, Villanueva A, et al. Hepatocellular carcinoma. Nat Rev Dis Primers. 2021 Jan 21;7(1):6. doi: 10.1038/s41572-020-00240-3. Erratum in: Nat Rev Dis Primers. 2024 Feb 12;10(1):10.

[2]Marrero JA, Kulik LM, Sirlin CB, et al. Diagnosis, Staging, and Management of Hepatocellular Carcinoma: 2018 Practice Guidance by the American Association for the Study of Liver Diseases. Hepatology. 2018 Aug;68(2):723-750.

[3]Forner A, Llovet JM, Bruix J. Hepatocellular carcinoma. Lancet. 2012 Mar 31;379(9822):1245-55.

[4]Villanueva A, Minguez B, Forner A, et al. Hepatocellular carcinoma: novel molecular approaches for diagnosis, prognosis, and therapy. Annu Rev Med. 2010;61:317-28.

[5]Zhang ZM, Huang Y, Liu G, et al. Development of machine learning-based predictors for early diagnosis of hepatocellular carcinoma. Sci Rep. 2024 Mar 4;14(1):5274.

審批編號：CN-150407 有效期至：2025-12-18

本材料由阿斯利康提供，僅供醫療衛生專業人士參考