近來,摜蛋正以不及掩耳之勢,佔領很多人的休閒生活,成為不少地方最為吃香的大眾娛樂。根據工人日報微信公號釋出的資料,據不完全統計,僅在江蘇和安徽兩省就有超過2000萬人經常參加各類摜蛋活動,全國摜蛋愛好者已達1.4億人。
澎湃新聞記者查詢發現,中國科學院計算技術研究所官方微信公眾號1月30日刊文《南京大學高陽團隊帶您“玩轉”摜蛋》。
文章介紹,國內撲克遊戲,如摜蛋、鬥地主等非完美資訊博弈,具有資訊集狀態多、動作空間複雜、狀態動作難以約簡等特點,大部分現有方法難以應用。本文對摜蛋進行研究,提出的SDMC方法在第2屆“中國人工智慧博弈演算法大賽”取得冠軍。
文章在摘要部分介紹:在不確定資訊的複雜環境下進行決策是現實中人們經常面對的困難之一,因此具有能夠進行良好決策的能力被視為人工智慧的重要能力之一。而遊戲型別的博弈作為對現實世界的一種高度抽象,具有良定義、易檢驗演算法優劣等特點,成為研究的主流。其中以摜蛋為代表的撲克類博弈不僅具有他人手牌未知這樣的難點,還由於可選出牌動作與他人手牌情況數量龐大等特點,難以進行高效求解。
因此,本文提出了一種軟深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法。該方法能夠更好地融合領域知識,加快策略學習速度,並採用軟動作取樣策略調整實時決策,提升策略勝率。所提出的SDMC方法訓練出的策略模型參加第2屆“中國人工智慧博弈演算法大賽”時獲得冠軍。 與第1屆比賽冠軍策略和第2屆其他策略模型的實驗對比證明了該方法在解決摜蛋撲克博弈中的有效性。
文章總結:本文提出了一種針對摜蛋撲克博弈的軟深度蒙特卡洛SDMC方法。SDMC方法在學習過程中不僅採用了軟啟動方法,結合已有策略,加速模型訓練過程,同時採取軟動作取樣,在實際對戰過程中,保證選擇的策略在當前模型下的評估值變化不大的情況下對動作進行取樣,降低訓練過程中方差帶來的影響,並增加被對手利用的難度。在摜蛋環境下的實驗表明,本文所提方法SDMC相較於現有方法有著更高的對戰勝率與淨勝得分。之後,擬從軟動作取樣的角度出發,依據現有模型的動作評估值,結合子博弈求解方法提升在實戰環境下的策略強度,致力於得到在團體對戰情況下的團隊最大最小均衡等博弈論角度下的最優策略,最終實現在摜蛋等撲克博弈環境下戰勝人類的職業選手。
據南京大學官網介紹,高陽教授,博導。目前任南京大學健康醫療大資料國家研究院常務副院長,南京大學陸海安全決策技術教育部重點實驗室副主任。曾任南京大學計算機科學與技術系副主任(2011-2023)。2009年入選江蘇省“333高層次人才培養工程”第二批中青年科學技術帶頭人,2010年入選教育部新世紀優秀人才支援計劃,2019年度入選江蘇省高等學校優秀科技創新團隊負責人,2022年入選江蘇省軍民融合創新領軍人才,2022年入選“天山學者”。中國人工智慧學會會士,江蘇省人工智慧學會常務副理事長。
高陽1997年開始從事人工智慧、機器學習、多智慧體系統、大資料、影象和影片分析等領域的學術研究。作為第一負責人主持國家自然科學基金重大專案課題、重點專案、軍民共性技術聯合基金專案各一項、面上專案三項、青年專案一項;主持科技部國際合作專項一項、科技創新2030—“新一代人工智慧”重大專案課題兩項;主持江蘇省自然科學基金重點專案一項,江蘇省重點研發計劃專案一項等。
高陽基於所研究成果,在國際學術期刊(IEEE Transactions系列)、國際會議(CCF-A/B類會議)和國內一級刊物上(計算機學報、軟體學報等)發表學術論文數200餘篇,譯著《統計強化學習》、《機器學習的演算法視角》,編著《分散式人工智慧》等。獲授權專利10項,國際PCT專利1項;獲江蘇省科學技術獎二等獎一次(“面向複雜互動場景的新型機器學習技術”,排名第一)、中國人工智慧學會吳文俊自然科學獎二等獎一次(“強化學習理論與應用”,排名第一)、軍隊醫療成果獎二等、三等各一項。
高陽目前為中國人工智慧學會會士、智慧服務專委會副主任/機器學習專業委員會常委/粒計算與知識發現專業委員會常委;中國計算機學會傑出會員,人工智慧與模式識別專業委員會常委、秘書長/多智慧體與智慧系統學組常務副組長/大資料專家委委員;中國指揮與控制學會資訊融合專委會副主任/智慧博弈與兵棋推演專委會常委;江蘇省人工智慧學會常務副理事長;江蘇省軟體與資訊服務標準化委員會人工智慧標準工作組組長等。擔任《軟體學報》、《智慧系統學報》、《計算機科學》、《模式識別與人工智慧》、《ZTE Communications》等期刊的編委。
以下為《基於深度強化學習的摜蛋撲克博弈求解》的圖文介紹: