當 AlphaGo 遇上 ChatGPT:第一章:AlphaGo 的兩顆「大腦」——策略網路與價值網路
從兩顆神經網路,到世界模型、再到股票市場
如果你把最近幾年的 AI 大突破排成一條時間線,兩個名字會不斷跳出來:
AlphaGo,還有 Transformer / 大型語言模型(LLM)。
一個會下圍棋、會「算未來」;
一個會寫程式、會聊天、會幫你改履歷。
對工程師來說,真正有趣的問題不是「誰比較強」,而是:
這兩種完全不同的 AI,大腦長得怎麼樣?
它們有沒有機會合在一起,變成一個更像「通用智慧」的東西?
甚至——能不能拿去做實際的事,比如:股票投資?
以下,是一位工程師和一個 AI 一路「追問到底」後,整理出來的宇宙地圖。
第一章:AlphaGo 的兩顆「大腦」——策略網路與價值網路
先從最經典的問題開始:
alphago 的策略網路跟價值網路是什麼? 你可以詳細說明嗎?
如果用國中程度的語言來講,AlphaGo 腦袋裡其實就是兩個角色在開會:
-
策略網路(Policy Network):
「現在輪到我下,這一步比較像高手會下在哪裡?」 -
價值網路(Value Network):
「照目前這個盤面看下去,到底比較像黑贏還是白贏?勝率大概多少?」
人類下棋的時候,大概也會做三件事:
-
從一堆可能落點中,挑幾個「看起來合理」的。
-
概估一下現在誰有優勢。
-
在候選手裡,仔細算幾步,看看哪條變化比較好。
AlphaGo 把這三件事拆給三個模組做:
-
第 1 件:策略網路 → 幫忙「挑手」
-
第 2 件:價值網路 → 幫忙「判形勢」
-
第 3 件:MCTS 蒙地卡羅樹搜尋 → 真的去「算變化」
策略網路:把「棋感」數位化
策略網路的輸入是:目前整個棋盤。
輸出是一張「熱力圖」:每一個交叉點作為下一手的機率。
-
某幾個點:機率高 →「這裡很香,職業棋士常常會下」
-
大部分點:機率接近零 →「幾乎不可能是好棋」
一開始,AlphaGo 是拿 三千萬筆人類高手棋譜 來訓練策略網路。
目標很單純:在同樣的局面下,
「我也要學會像職業棋士一樣選點」。
接著更有趣的來了——
AlphaGo 開始跟自己下無數盤棋(自我對弈),用勝負來獎勵或懲罰自己的選擇。
這就是強化學習:會導致勝利的走法,機率被調高;導致失敗的走法,機率被壓低。
結果是:
策略網路不只會模仿人類,還會超越人類,長出一些我們看不懂但很強的下法。
價值網路:一眼看出誰優勢的「裁判」
價值網路的輸入也是整個盤面,
但輸出不是「下哪裡」,而是一個數字:這盤棋目前偏黑好,還是偏白好?
可以把它想像成一個冷靜裁判:
「如果從這盤局面開始,雙方都下得完美,
最後黑方大概有 73% 的機會會贏。」
這個能力怎麼學來的?
答案是:還是靠自我對弈。
AlphaGo 跟自己對弈,每一盤都產生:
-
很多中途盤面
-
一個最後勝負結果(黑勝 / 白勝)
對價值網路來說,這就是訓練資料:
「看到這種盤面,最後通常是黑贏。」
「看到那種盤面,最後常常是白贏。」
久而久之,它就學會了「不用下完,也能估勝率」。
兩顆網路 + 搜尋樹:AlphaGo 的大腦組合技
把這兩顆網路丟進搜尋樹(MCTS)裡,就變成:
-
策略網路:幫 MCTS 選「值得算」的幾個候選手
→ 縮減搜尋的「廣度」。 -
價值網路:讓 MCTS 不用每條分支都模擬到終局
→ 在某個深度直接估勝率
→ 縮減搜尋的「深度」。
結果是:
原本爆炸到宇宙毀滅也算不完的搜尋樹,
突然變成可控、可搜尋,而且強到可以打爆世界冠軍。
第二章:DCNN 與殘差網路——AlphaGo 的「宇宙引擎」
========
本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言
張貼留言