紐結理論長期困擾著數學家,但隨著人工智慧的進步,有研究者在生物學中找到了突破口,因為紐結結構存在於許多重要的生物分子中,例如蛋白質、DNA等。對於難以識別歸類的複雜紐結結構,AI給出了令人驚訝的結果。
撰文 | Davide Michieletto(愛丁堡大學物理與天文學院)
編譯 | 陳蘊靈
任何一個有經驗的水手都明白,一個正確的繩結意味著生命的保障,無論是升起風帆還是固定錨鏈,繩子的作用取決於它的繩結。同樣的道理也適用於維持人類生命體徵的分子,例如最常見的蛋白質分子。
蛋白質是由氨基酸組成的大分子化合物,是構成生物體的基本物質之一。氨基酸透過肽鍵連線形成肽鏈,進而透過螺旋、摺疊等方式形成複雜的空間結構,使分子能夠相互耦合。長期以來,人們認為,儘管蛋白質可能高度纏繞,但在正常條件下它們不能形成紐結,因為這會阻礙蛋白質的摺疊[譯者注1]。
然而,在上世紀70年代,科學家發現了許多在拓撲意義上形成紐結結構的蛋白質(Knotted protein,也稱打結蛋白),它們的天然結構呈現為開放的紐結(即,兩端不連線)。儘管幾何意義上,蛋白質(甚至DNA)可以看作一條(或幾條)不閉合的曲線,但它們仍然能夠形成紐結,從而影響其功能。事實上,在蛋白質資料庫中,大約1%的蛋白質包含紐結結構。與繩子或者線不同,每一個紐結蛋白質都具有一個特有的紐結(見圖1)。紐結蛋白質中最大的一類是SPOUT酶(它們組成了七類不同結構的甲基轉移酶中的第二大類)。除了一種例外,其餘所有SPOUT酶都形成了“三葉結”——三個環相互重疊的結構。
這一發現引發了一系列問題,比如:蛋白質分子的紐結結構是如何形成的,它們摺疊的機制是什麼,這些紐結又有什麼作用,等等。有些證據表明,紐結蛋白質在極端溫度下仍可以保持活性。但對於分子結構中紐結的普遍性及其對生物的影響,科學家們依然束手無策。當我們試圖將對紐結的理解用於生物學和軟物質問題上時,我們遇到了一個困擾科學家一個多世紀的數學問題。
曲折的歷史:錯誤的渦旋原子理論
現代紐結理論的起源通常可以追溯到150多年前的一項著名實驗——菸圈實驗。1867年,彼得·格思裡·泰特(Peter Guthrie Tait)邀請他的朋友——物理學家威廉·湯姆森(William Thomson,後來的開爾文勳爵),從格拉斯哥前往愛丁堡觀看他演示製造成對的菸圈。令開爾文驚訝的是,這些菸圈異常穩定,能在房間裡移動,甚至像橡膠一樣相互彈開。菸圈事實上是一種“渦環”(vortex ring),其中氣溶膠和顆粒物在同心小圓中旋轉,這種運動賦予了菸圈穩定性。
當時,科學家們普遍認為宇宙中充滿了一種被稱為“以太”的物質,引力和電磁輻射以這種物質為媒介進行傳播。開爾文推測,原子可能是以太中的穩定渦旋,類似於菸圈。他進一步認為,以太渦旋形成的紐結決定了不同的化學元素。泰特對開爾文的猜想產生了濃厚興趣。在接下來的25年裡,泰特與英國國教牧師托馬斯·柯克曼(Thomas Kirkman)、美國數學家查爾斯·利特爾(Charles Little)以及詹姆斯·克拉克·麥克斯韋(James Clerk Maxwell)合作,製作了一張包含251個紐結的表格,其中最多有10個交叉點(見圖2)。
隨著科學家對原子結構的深入瞭解,渦旋原子模型逐漸被拋棄。1913年,亨利·莫塞萊(Henry Moseley)的研究最終推翻了這一理論,他證明化學元素的不同不是由它們的拓撲結構決定的,而是由原子核中質子數決定。儘管現在看來渦旋原子理論是錯誤的,但紐結理論仍作為數學的一個分支延續至今[譯者注2]。
圖 2:彼得·格思裡·泰特和其他早期的紐結理論家花費多年時間編制了一份全面的紐結列表。上圖摘自他們的結表,列出了最多9個交叉點的紐結——即“九階紐結”[譯者注3]。圖片來源:University of St Andrews Library, ID sfQC3-T2-Vol-1-6.
識別紐結:尋找拓撲不變數
對於泰特及其同僚來說,為紐結分類是一項極為艱苦的工作。每當出現一個新的紐結時,他們都必須透過繪圖和幾何直觀來檢查其是否獨特。泰特本人曾寫道:“雖然我將許多形式截然不同但等價的結歸為一組,但我不能絕對地確定這些分組本質上是否完全不同。”確實,1974年肯尼斯·佩爾科(Kenneth Perko)發現,泰特等人所列舉的紐結表中有兩個紐結實際上是等價的——它們現在被稱為“佩爾科對”[2]。
如果想要更有說服力,我的學生喬爾傑·米哈伊洛維奇(Djordje Mihajlovic)開發了一款名為“識別紐結”(Spot a Knot)的線上遊戲,這款遊戲的目標是從圖片中找出等價的紐結(見圖3)。即便研究紐結多年,我自己還是經常出錯。要想在紐結表中佔有一席之地,一個紐結必須具有獨特的拓撲結構,也就是說,除非將其拆開,否則它不能光滑形變成其他已知的結。拓撲學研究的是一個空間在光滑形變後的不變數。對拓撲學家而言,一個馬克杯等價於一個甜甜圈,因為二者可以互相形變並且不會丟失內在的洞。但正如佩爾科對和米哈伊洛維奇的遊戲所展示的那樣,證明兩個紐結不同並非易事。
圖 3:愛丁堡大學的博士生喬爾傑·米哈伊洛維奇開發了一款名為“識別紐結”的線上遊戲。讀者不妨嘗試思考一下:在上圖中,第一行的紐結等價於第二行的哪個呢?圖片來源:Djordje Mihajlovic
在紐結理論中,用來刻畫紐結性質的量稱為“不變數”。紐結理論學家的終極夢想是找到一個不變數,能夠根據拓撲結構用其對紐結進行分類(就像質子數一樣,可以唯一確定一種化學元素)。這種“完全不變數”將賦予每一個紐結唯一的值,並且在光滑形變後保持不變。第一個紐結不變數是1928年由詹姆斯·亞歷山大(James W. Alexander)提出的,稱為亞歷山大多項式(Alexander polynomial)。自那時起,數學家們提出了許多其他不變數,但對於每一個方法,人們都發現有無法進行唯一分類的案例。
一種構造拓撲不變數的方法是這樣的:“沿著紐結走一遍,將每個交叉點編號為1, 2, 3, …, 2n(每個交叉點會遍歷兩次)。如果編號是偶數而且是從上方越過形成的交叉點,則將其符號標為負數(見圖4)。最後,每個交叉點會被標記為一對整數,一個是偶數,一個是奇數。這一系列偶數就是該紐結的編碼。”這個方法被稱為Dowker–Thistlethwaite編碼(簡稱DT編碼),於1983年首次提出[3]。雖然DT編碼可以分類許多簡單的結,但與其他方法一樣,它本身並不是拓撲不變數[譯者注4]。
圖 4:Dowker–Thistlethwaite記法是一種於1983年提出的紐結不變數。這種方法透過兩次遍歷紐結,為每個交叉點分配一個整數,最終的整數序列即表示為該紐結。圖片來源:wikipedia
紐結不變數:代數與幾何方法
亞歷山大多項式屬於所謂的“代數不變數”。它透過構造一個矩陣(其行數和列數與結的交叉點數量相同)並計算其行列式來確定。這類代數不變數是從結的二維投影中構造出來的,有點像紐結的影子,不過我們可以辨別每次交叉時哪個部分在上面。然而,像我這樣的軟物質物理學家希望對蛋白質和DNA等分子中的紐結進行分類,它們是三維的,並且不斷受到熱能的干擾,將這些分子簡化為二維投影會抹去一些對其功能至關重要的空間特徵。
一種有說服力的替代方法是使用“幾何不變數”。這類不變數透過在三維空間中遍歷紐結並透過計算某些幾何屬性(例如曲率)來確定。其中一種我非常喜歡的方式是計算絞擰數[譯者注5](writhe,或稱纏繞數),同樣是由泰特提出的。絞擰數可以透過在二維投影中數“上方”和“下方”的交叉點,並用兩者相減來計算(見圖5b)。
圖 5:刻畫紐結的一種方法是計算絞擰數,它量化了紐結的扭曲程度。(a) 每次紐結出現交叉時,交叉點可以被定義為上交叉(左圖)或下交叉(右圖)。絞擰數透過用上交叉點數量減去下交叉點數量來計算。(b) 絞擰數的計算示例:對於五葉結(左),它的絞擰數為+5;對於八字結(右),它的絞擰數為0。(c) 絞擰數還可以作為幾何量在三維分子(如蛋白質)上進行計算。幾何絞擰數可以作為整體量或區域性量(在相鄰的短鏈段之間)來計算。區域性絞擰數值越大表明這些鏈段彼此纏繞得越緊。達維德·米基耶萊託及其同事證明,基於區域性絞擰數訓練的神經網路能夠高精度地刻畫紐結的拓撲結構。)圖片來源:(a)參考文獻[4]; (b) Djordje Mihajlovic; (c) 參考文獻[5]
絞擰數不僅是代數量,也可以作為幾何量來計算。想象在一個三維紐結(如蛋白質)上行走,每走一步計算你看到的交叉點的絞擰數。最後,將這些數值的平均值求出,就得到這個紐結的全域性絞擰數。不幸的是,絞擰數並不是完全不變數。實際上,和代數不變數一樣,沒有任何幾何不變數被證明能夠對所有紐結進行唯一分類。
2021年,Google DeepMind的AI程式AlphaFold基本解決了困擾科學家幾十年的一個問題——如何從氨基酸序列預測蛋白質的結構[6]。蛋白質的功能取決於其三維結構,因此AlphaFold成為研發藥物和疾病研究的強大工具。
這使得我們不禁自問:人工智慧是否能為紐結不變數問題提供類似的解決方案?
人工智慧與絞擰數
一些研究者已經開始使用人工智慧來探討紐結的分類問題。最新的一些研究成果包括:2020年香港城市大學的Olafs Vandans團隊[8]和2023年帕多瓦大學的Anna Braghetto團隊的工作[9]。這些研究將不同的紐結視為一連串珠子,並透過給定的笛卡爾座標、(後者中是)向量、珠子間的距離和角度等資料來訓練神經網路,從而識別紐結的型別。這些研究取得了高精度的分類結果,但僅限於五個最簡單的紐結。
我們希望將此方法推廣到更復雜的拓撲結構,同時簡化神經網路模型,並使用更小的訓練資料集。為此,我們從大自然中獲得靈感。在我們的身體中,DNA分子的紐結可以由所謂的“拓撲異構酶”(Topoisomerase)解開。儘管這些酶的體積只是DNA分子的千分之一,但它們可以切割並重新連線DNA鏈,從而有效地解開紐結。我們假設拓撲異構酶能夠感知某種區域性幾何性質,使它們能夠找到DNA分子中最緊密纏繞的部分。我們嘗試使用密度、曲率等多種量來實現這一目標。最終,我們的結果又回到了起點——泰特和他的幾何絞擰數。
除了計算整個紐結的絞擰數外,我們還可以計算區域性絞擰數,這個量可以刻畫某一鏈段的纏繞程度(見圖5c)。我們發現計算區域性絞擰數是一種定位長環狀分子中紐結部分的有效方法[10]。基於這一結果,我們決定將區域性絞擰數的資料提供給AI,這樣它將有更大的勝算來識別複雜紐結。
這套理論成型後,我們開始構建神經網路進行測試。首先,我們透過模擬五個最簡單的紐結的熱運動生成訓練資料集,提取數萬個構型(見圖6a)。隨後,我們訓練了兩個神經網路:一個使用紐結的笛卡爾座標,另一個使用區域性絞擰數。在兩種情況下,我們都對AI進行了監督,使用我們訓練資料集的一個子集來告訴神經網路每個紐結的型別。我們要求神經網路對它們之前從未見過的簡單結進行分類,以檢驗我們的方法。
當AI在簡單的神經網路上使用笛卡爾座標進行訓練時,正確率只有80%,這與Vandans和Braghetto的成果類似。儘管這可能比我們大多數人在“識別紐結”遊戲中的得分要高,但仍與我們的預期相差甚遠。然而,當神經網路使用區域性絞擰數進行訓練時,結果令人震驚:它的正確率超過了99.9%。
更具挑戰性的任務:區域性絞擰數識別複雜紐結
儘管我對這一結果感到驚訝,但識別五個簡單紐結的任務實際上相對平凡,我們完全可以透過現有的不變數完成(甚至極為敏銳的“識別紐結”玩家也可以完成)。因此,我們決定給神經網路一個更棘手的挑戰。這一次,我們精心挑選三個紐結:康威(Conway)結、木下-寺坂紐結(Kinoshita–Terasaka,以下簡稱KT結),以及最簡單的“平凡結”(unknot)。前兩個紐結都有11個交叉點,並且是彼此的變形,因為它們除了在一個區域“翻轉”外是完全相同的。它們共享許多的紐結不變數,同時也與平凡結共享一些不變數。我們發現,對於使用笛卡爾座標訓練的神經網路,康威結和KT結是無法區分的,但使用區域性絞擰數訓練的神經網路能夠以99.9%的準確率識別它們。
圖 6:紐結的完全不變數在光滑形變下保持不變。不同的拓撲結構具有不同的完全不變數。(a)中的兩幅影象展示的是同一個結嗎?僅憑人類的直覺往往難以區分。事實上,這兩幅圖顯示的是兩種略微不同的結——康威結和KT結。由於很難區分這兩個結,它們可以用來測試神經網路是否可以識別紐結。(b)展示了兩種結的不同構型——51結(也稱五葉結,上圖)和72結(下圖)。在達維德·米基耶萊託及其同事的神經網路研究中,五葉結是第一個訓練資料集的一部分,而72結則包含在更大的資料集中。圖片來源:(a)參考文獻[5];(b) Davide Michieletto
我們的終極測試是將這種訓練應用於更大範圍的紐結。我們對250種結進行了模擬,這些結最多有10個交叉點(見圖6b)。當神經網路使用笛卡爾座標進行訓練時,正確率只有20%。相比之下,我們使用區域性絞擰數進行訓練,AI可以在幾秒內以95%的準確率分類所有250個結,這遠超任何已知的演算法或單一拓撲不變數[5]。
最後的驗證——瓦西里耶夫不變數
在對紐結理論一無所知的情況下,神經網路透過自學,具備了一種長期跳脫於人類直覺之外的能力。實際上,人們仍在努力開啟“黑箱”,理解神經網路究竟探索到了什麼。我們發現,為了區分五個最簡單的結,神經網路會將結上的每一對點的絞擰數相乘。值得注意的是,這個量等價於一個已存在的不變數,稱為“二階瓦西里耶夫(Vassiliev)不變數”。瓦西里耶夫不變數是透過將區域性絞擰數矩陣的二元組、三元組、四元組……直到n元組相乘來計算的。順便提一下,二階瓦西里耶夫不變數也是康威多項式的二次項係數,這是一種我們之前提到的代數不變數。一個仍未被驗證的猜想認為,能夠透過積分計算的瓦西里耶夫不變數完備集可能就是長期尋求的完全不變數。
我們很高興地發現,神經網路能夠透過計算更高階的瓦西里耶夫不變數來適應更復雜的結。例如,為了唯一分類五個簡單結,神經網路僅需計算二階瓦西里耶夫不變數。但在250個結的資料集中,它可能會計算三階或四階的瓦西里耶夫不變數。
幾何不變數和代數不變數是透過非常不同的數學方法計算的。AI能夠發現它們之間的聯絡非常令人興奮,這也使我們更接近完全不變數。
紐結的確很重要
在短短三年內,AlphaFold生成了數百萬種蛋白質,其中大部分尚未被完全研究。2023年,由華沙大學的喬安娜·蘇爾科夫斯卡(Joanna Sulkowska)領導的一組研究人員預測,透過AlphaFold生成的蛋白質中有多達2%是紐結蛋白質,其中最複雜的結有六個交叉點[11]。2022年,約翰內斯·古滕貝格大學的彼得·維爾瑙(Peter Virnau)在AlphaFold2資料集中發現了一種具有七個交叉點的紐結蛋白質[12]。這種蛋白質從未在實驗中觀察到,因此我們不無理由相信可能還有更復雜的紐結蛋白質存在。
紐結不僅存在於生物學中。有研究發現,紐結的拓撲結構會影響冰和水凝膠的熱力學和材料屬性,這意味著未來我們可能會利用拓撲性質設計新材料。我們需要更有效的方法來識別分子和材料中的紐結結構,希望我們的發現能為這一探索提供指導。
在2004年,加拿大的三位研究人員利用他們大學的計算叢集將泰特最初編制的結表擴充套件至19個交叉點的交錯紐結,構造出超過六十億種獨特的紐結結構[7]。泰特花了25年建立他自己的紐結列表,他可能會驚訝於一百年後,一臺機器竟然能在短短几天內將他的工作擴充套件超過五個數量級。紐結理論中目前最大的未解之謎仍然是尋找完全不變數。現在,既然有了AI的助力,下一步的進展可能讓我們感到驚訝。
譯者注
[1]蛋白質可憑藉相互作用在特定環境下自我組裝,這個過程被稱為蛋白質摺疊。蛋白質摺疊問題是分子生物學領域尚未解決的一個重大課題。
[2]數學上,我們定義一個紐結為空間中的一個閉合曲線,並且該曲線在任何地方不會出現自相交。
[3]此處原文The above image is extracted from their table of knots up to seven crossings – “the first seven orders of knottiness”,表述有誤。從圖中不難看出,泰特等人列出的結表中包含了最多9個交叉點。圖2實際上列出了非平凡紐結的前七種情況,即交叉點的個數大於等於3且小於等於9。(注意,交叉點小於等於2的紐結可以光滑形變為平凡結。)
[4]本段原文有矛盾,“A recipe for such a topological invariant could be something like this……”,“it isn’t a complete invariant”。DT編碼只是用來構造拓撲不變數的一種方法,它本身並不是一個不變數。DT編碼提供了一個直接的符號化表示,使得紐結可以轉換成一串數字,便於分析和計算。人們可以進一步推匯出亞歷山大多項式等重要的紐結不變數。另外,使用DT編碼,目前還無法構造出真正的完全不變數。
[5] 此處原文有誤,“One such invariant that I am fond of is the ‘writhe’”。和DT編碼一樣,絞擰數本身並不是拓撲不變數,但可以用來構造拓撲不變數。不同的是,絞擰數用於描述紐結二維投影圖的幾何特性(而非單一的代數性質,具體見下文)。例如絞擰數可以用來構造紐結的自交數,在區分映象紐結、描述紐結幾何特性和某些物理系統(如DNA鏈)的研究中有重要應用。同樣,使用絞擰數,目前還無法構造出真正的完全不變數。
參考文獻
[1]Dabrowski-Tumanski, Pawel, and Joanna I. Sulkowska. "To tie or not to tie? That is the question." Polymers 9.9 (2017): 454.
[2]Perko, Kenneth A. "On the classification of knots." Proceedings of the American Mathematical Society 45.2 (1974): 262-266.
[3]Dowker, Clifford H., and Morwen B. Thistlethwaite. "Classification of knot projections." Topology and its Applications 16.1 (1983): 19-31.
[4]Ippoliti, Emiliano. "On the heuristic power of mathematical representations." Synthese 200.5 (2022): 407.
[5]Sleiman, Joseph Lahoud, et al. "Geometric learning of knot topology." Soft Matter 20.1 (2024): 71-78.
[6]Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.
[7]Vandans, Olafs, et al. "Identifying knot types of polymer conformations by machine learning." Physical Review E 101.2 (2020): 022502.
[8]Braghetto, Anna, et al. "Machine learning understands knotted polymers." Macromolecules 56.7 (2023): 2899-2909.
[9]Sleiman, Joseph L., et al. "Geometric Predictors of Knotted and Linked Arcs." ACS Polymers Au 2.5 (2022): 341-350.
[10]Perlinska, Agata P., et al. "AlphaFold predicts novel human proteins with knots." Protein Science 32.5 (2023): e4631.
[11]Brems, Maarten A., et al. "AlphaFold predicts the most complex protein knot and composite protein knots." Protein Science 31.8 (2022): e4380.
[12]Rankin, Flint, Schermann. "Enumerating the prime alternating knots, Part I." Journal of Knot Theory and Its Ramifications 13.01 (2004): 57-100.
本文基於知識共享許可協議(CC BY-NC)譯自Davide Michieletto, Spot the knot: using AI to untangle the topology of molecules. 原文地址:https://physicsworld.com/a/spot-the-knot-using-ai-to-untangle-the-topology-of-molecules/
特 別 提 示
1. 進入『返樸』微信公眾號底部選單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位陣列成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯絡後臺。