2018年5月22日,中國社科院財(cái)經(jīng)戰(zhàn)略研究院2018年度第8期“雙周財(cái)經(jīng)論壇”在財(cái)經(jīng)院九層第二會(huì)議室召開。本期論壇特邀中國科學(xué)院計(jì)算技術(shù)研究所徐君研究員作題為“從Alpha Go 到智能搜索:淺談人工智能的任務(wù)和方法”的學(xué)術(shù)報(bào)告。財(cái)經(jīng)院副院長(zhǎng)夏杰長(zhǎng)研究員主持了本次學(xué)術(shù)報(bào)告會(huì)。
徐君研究員主要從人工智能任務(wù)和方法上介紹Alpha Go的技術(shù)創(chuàng)新以及其對(duì)當(dāng)前智能搜索技術(shù)發(fā)展的重要貢獻(xiàn)。整個(gè)學(xué)術(shù)報(bào)告包括“人工智能”、“Alpha Go 和Alpha Zero”、“人工智能在智能搜索中的應(yīng)用”和“結(jié)語”四個(gè)部分。
首先,徐君研究員對(duì)“人工智能”的概念進(jìn)行了闡釋,認(rèn)為盡管人工智能成為最熱門的領(lǐng)域,其科學(xué)概念有諸多討論但到底什么是人工智能并沒有形成共識(shí),很大原因在于人類對(duì)自身智能的理解非常有限,對(duì)構(gòu)成人的智能的必要元素也了解有限。在這種情況下,當(dāng)前對(duì)人工智能判斷的主要方法之一是依據(jù)外在表現(xiàn)判定是否具有“智能”,即“圖靈測(cè)試”。圖靈測(cè)試避免了從哲學(xué)意義上對(duì)機(jī)器是否能夠擁有智能上的爭(zhēng)論,但是也存在很多不足。
在對(duì)人工智能概念和圖靈測(cè)試進(jìn)行分析后,徐君研究員介紹了人類的棋類游戲成為人工智能測(cè)試任務(wù)的發(fā)展歷程。IBM的超級(jí)電腦深藍(lán)戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫是Alpha Go之前,人工智能在棋類游戲測(cè)試上的成功案例,計(jì)算機(jī)通過近似窮舉的方式戰(zhàn)勝人類代表了高性能計(jì)算機(jī)技術(shù)取得了突破性進(jìn)展,但窮舉搜索并不意味著“深藍(lán)”實(shí)現(xiàn)了“智能”。圍棋是人工智能棋類測(cè)試任務(wù)中最為復(fù)雜的棋類游戲,由于圍棋的落子可能性很多而且棋局很長(zhǎng),也就是搜索的寬度很寬,深度很深,現(xiàn)有計(jì)算機(jī)技術(shù)無法進(jìn)行窮舉搜索。Deep Mind研發(fā)的Alpha Go、Alpha Zero能夠戰(zhàn)勝人類頂尖棋手,一方面是有其強(qiáng)大的計(jì)算機(jī)系統(tǒng)支撐,但主要的技術(shù)突破在于搜索算法的突破,實(shí)現(xiàn)了機(jī)器的深度強(qiáng)化學(xué)習(xí)和自學(xué)習(xí)。
徐君研究員認(rèn)為Alpha Go的深度學(xué)習(xí)實(shí)現(xiàn)了以過程為中心的傳統(tǒng)精確算法向以優(yōu)化為中心的模糊算法轉(zhuǎn)變。圍棋是一種完全信息下交替選擇的馬爾科夫博弈游戲(Fully observed state alternating Markov game)。Alpha Go通過智能體-環(huán)境交互建模決策序列進(jìn)行深度強(qiáng)化學(xué)習(xí),其馬爾科夫決策過程(MDP)包括了狀態(tài),動(dòng)作,短期獎(jiǎng)勵(lì),策略和長(zhǎng)期回報(bào)五個(gè)過程;通過深度強(qiáng)化學(xué)習(xí),Alpha Go建立了其策略網(wǎng)絡(luò)(估算每一個(gè)落子位置的概率)和價(jià)值網(wǎng)絡(luò)(估算當(dāng)前棋局的勝率)。Alpha Go以及完全通過自學(xué)習(xí)形成的Alpha Zero的出現(xiàn)和取得的成功代表了計(jì)算機(jī)在深度強(qiáng)化學(xué)習(xí)能力上的巨大突破,計(jì)算機(jī)可以在極少的專業(yè)領(lǐng)域知識(shí),無人類積累的數(shù)據(jù)和指引下完成學(xué)習(xí)任務(wù),并可以在能力上超越人類。但徐君研究員并不認(rèn)為Alpha Go的人工智能擺脫了對(duì)人類知識(shí)的依賴。
最后,徐君研究員分析了Alpha Go的技術(shù)突破對(duì)智能搜索發(fā)展的貢獻(xiàn)。他認(rèn)為利用深度強(qiáng)化學(xué)習(xí)技術(shù)建模的智能搜索技術(shù)可以更好更快地為用戶提供所需要的搜索結(jié)果,大大提高了用戶的便利度。當(dāng)前領(lǐng)先的互聯(lián)網(wǎng)公司都在利用計(jì)算機(jī)進(jìn)行深度強(qiáng)化學(xué)習(xí),提高信息流處理效率,為用戶提供更好的使用體驗(yàn)。
30余名所內(nèi)外研究人員、在校研究生參加了此次“雙周財(cái)經(jīng)論壇”。會(huì)后,多位與會(huì)研究人員與徐君研究員進(jìn)行了交流。與會(huì)者對(duì)本次學(xué)術(shù)報(bào)告給予了高度評(píng)價(jià),認(rèn)為獲益良多。
(執(zhí)筆:趙京橋)