當 AlphaGo 遇上 ChatGPT:第一章:AlphaGo 的兩顆「大腦」——策略網路與價值網路

 

從兩顆神經網路,到世界模型、再到股票市場



如果你把最近幾年的 AI 大突破排成一條時間線,兩個名字會不斷跳出來:
AlphaGo,還有 Transformer / 大型語言模型(LLM)

一個會下圍棋、會「算未來」;
一個會寫程式、會聊天、會幫你改履歷。

對工程師來說,真正有趣的問題不是「誰比較強」,而是:

這兩種完全不同的 AI,大腦長得怎麼樣?
它們有沒有機會合在一起,變成一個更像「通用智慧」的東西?
甚至——能不能拿去做實際的事,比如:股票投資?

以下,是一位工程師和一個 AI 一路「追問到底」後,整理出來的宇宙地圖。


第一章:AlphaGo 的兩顆「大腦」——策略網路與價值網路

先從最經典的問題開始:

alphago 的策略網路跟價值網路是什麼? 你可以詳細說明嗎?

如果用國中程度的語言來講,AlphaGo 腦袋裡其實就是兩個角色在開會:

  • 策略網路(Policy Network)
    「現在輪到我下,這一步比較像高手會下在哪裡?」

  • 價值網路(Value Network)
    「照目前這個盤面看下去,到底比較像黑贏還是白贏?勝率大概多少?」

人類下棋的時候,大概也會做三件事:

  1. 從一堆可能落點中,挑幾個「看起來合理」的。

  2. 概估一下現在誰有優勢。

  3. 在候選手裡,仔細算幾步,看看哪條變化比較好。

AlphaGo 把這三件事拆給三個模組做:

  • 第 1 件:策略網路 → 幫忙「挑手」

  • 第 2 件:價值網路 → 幫忙「判形勢」

  • 第 3 件:MCTS 蒙地卡羅樹搜尋 → 真的去「算變化」

策略網路:把「棋感」數位化

策略網路的輸入是:目前整個棋盤。
輸出是一張「熱力圖」:每一個交叉點作為下一手的機率。

  • 某幾個點:機率高 →「這裡很香,職業棋士常常會下」

  • 大部分點:機率接近零 →「幾乎不可能是好棋」

一開始,AlphaGo 是拿 三千萬筆人類高手棋譜 來訓練策略網路。
目標很單純:在同樣的局面下,
「我也要學會像職業棋士一樣選點」。

接著更有趣的來了——
AlphaGo 開始跟自己下無數盤棋(自我對弈),用勝負來獎勵或懲罰自己的選擇。
這就是強化學習:會導致勝利的走法,機率被調高;導致失敗的走法,機率被壓低。

結果是:
策略網路不只會模仿人類,還會超越人類,長出一些我們看不懂但很強的下法。

價值網路:一眼看出誰優勢的「裁判」

價值網路的輸入也是整個盤面,
但輸出不是「下哪裡」,而是一個數字:這盤棋目前偏黑好,還是偏白好?

可以把它想像成一個冷靜裁判:

「如果從這盤局面開始,雙方都下得完美,
最後黑方大概有 73% 的機會會贏。」

這個能力怎麼學來的?
答案是:還是靠自我對弈

AlphaGo 跟自己對弈,每一盤都產生:

  • 很多中途盤面

  • 一個最後勝負結果(黑勝 / 白勝)

對價值網路來說,這就是訓練資料:

「看到這種盤面,最後通常是黑贏。」
「看到那種盤面,最後常常是白贏。」

久而久之,它就學會了「不用下完,也能估勝率」。

兩顆網路 + 搜尋樹:AlphaGo 的大腦組合技

把這兩顆網路丟進搜尋樹(MCTS)裡,就變成:

  • 策略網路:幫 MCTS 選「值得算」的幾個候選手
    → 縮減搜尋的「廣度」。

  • 價值網路:讓 MCTS 不用每條分支都模擬到終局
    → 在某個深度直接估勝率
    → 縮減搜尋的「深度」。

結果是:
原本爆炸到宇宙毀滅也算不完的搜尋樹,
突然變成可控、可搜尋,而且強到可以打爆世界冠軍。


第二章:DCNN 與殘差網路——AlphaGo 的「宇宙引擎」

========

本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇:新手完全不懂 Prompt,也能讓 AI 幫你生出專業 Prompt(超簡單)

蜀漢多代理智能架構 *AI 不是一個人工作,而是一個國家在運作。*

不要再學 Prompt: 第 2 篇:LLM 如何把人的意圖翻譯成高品質 Prompt?