當 AlphaGo 遇上 ChatGPT：第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

1月 05, 2026

從兩顆神經網路，到世界模型、再到股票市場

如果你把最近幾年的 AI 大突破排成一條時間線，兩個名字會不斷跳出來：
AlphaGo，還有 Transformer / 大型語言模型（LLM）。

一個會下圍棋、會「算未來」；
一個會寫程式、會聊天、會幫你改履歷。

對工程師來說，真正有趣的問題不是「誰比較強」，而是：

這兩種完全不同的 AI，大腦長得怎麼樣？
它們有沒有機會合在一起，變成一個更像「通用智慧」的東西？
甚至——能不能拿去做實際的事，比如：股票投資？

以下，是一位工程師和一個 AI 一路「追問到底」後，整理出來的宇宙地圖。

第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

先從最經典的問題開始：

alphago 的策略網路跟價值網路是什麼? 你可以詳細說明嗎?

如果用國中程度的語言來講，AlphaGo 腦袋裡其實就是兩個角色在開會：

策略網路（Policy Network）：
「現在輪到我下，這一步比較像高手會下在哪裡？」
價值網路（Value Network）：
「照目前這個盤面看下去，到底比較像黑贏還是白贏？勝率大概多少？」

人類下棋的時候，大概也會做三件事：

從一堆可能落點中，挑幾個「看起來合理」的。
概估一下現在誰有優勢。
在候選手裡，仔細算幾步，看看哪條變化比較好。

AlphaGo 把這三件事拆給三個模組做：

第 1 件：策略網路 → 幫忙「挑手」
第 2 件：價值網路 → 幫忙「判形勢」
第 3 件：MCTS 蒙地卡羅樹搜尋 → 真的去「算變化」

策略網路：把「棋感」數位化

策略網路的輸入是：目前整個棋盤。
輸出是一張「熱力圖」：每一個交叉點作為下一手的機率。

某幾個點：機率高 →「這裡很香，職業棋士常常會下」
大部分點：機率接近零 →「幾乎不可能是好棋」

一開始，AlphaGo 是拿 三千萬筆人類高手棋譜 來訓練策略網路。
目標很單純：在同樣的局面下，
「我也要學會像職業棋士一樣選點」。

接著更有趣的來了——
AlphaGo 開始跟自己下無數盤棋（自我對弈），用勝負來獎勵或懲罰自己的選擇。
這就是強化學習：會導致勝利的走法，機率被調高；導致失敗的走法，機率被壓低。

結果是：
策略網路不只會模仿人類，還會超越人類，長出一些我們看不懂但很強的下法。

價值網路：一眼看出誰優勢的「裁判」

價值網路的輸入也是整個盤面，
但輸出不是「下哪裡」，而是一個數字：這盤棋目前偏黑好，還是偏白好？

可以把它想像成一個冷靜裁判：

「如果從這盤局面開始，雙方都下得完美，
最後黑方大概有 73% 的機會會贏。」

這個能力怎麼學來的？
答案是：還是靠自我對弈。

AlphaGo 跟自己對弈，每一盤都產生：

很多中途盤面
一個最後勝負結果（黑勝 / 白勝）

對價值網路來說，這就是訓練資料：

「看到這種盤面，最後通常是黑贏。」
「看到那種盤面，最後常常是白贏。」

久而久之，它就學會了「不用下完，也能估勝率」。

兩顆網路 + 搜尋樹：AlphaGo 的大腦組合技

把這兩顆網路丟進搜尋樹（MCTS）裡，就變成：

策略網路：幫 MCTS 選「值得算」的幾個候選手
→ 縮減搜尋的「廣度」。
價值網路：讓 MCTS 不用每條分支都模擬到終局
→ 在某個深度直接估勝率
→ 縮減搜尋的「深度」。

結果是：
原本爆炸到宇宙毀滅也算不完的搜尋樹，
突然變成可控、可搜尋，而且強到可以打爆世界冠軍。

第二章：DCNN 與殘差網路——AlphaGo 的「宇宙引擎」

========

本著作由大力士的AI天地創造製作，以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

搜尋此網誌

大力士的AI 天地

當 AlphaGo 遇上 ChatGPT：第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

從兩顆神經網路，到世界模型、再到股票市場

第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

策略網路：把「棋感」數位化

價值網路：一眼看出誰優勢的「裁判」

兩顆網路 + 搜尋樹：AlphaGo 的大腦組合技

留言

張貼留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇：新手完全不懂 Prompt，也能讓 AI 幫你生出專業 Prompt（超簡單）

蜀漢多代理智能架構 AI 不是一個人工作，而是一個國家在運作。

不要再學 Prompt: 第 2 篇：LLM 如何把人的意圖翻譯成高品質 Prompt？

當 AlphaGo 遇上 ChatGPT：第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

從兩顆神經網路，到世界模型、再到股票市場

第一章：AlphaGo 的兩顆「大腦」——策略網路與價值網路

策略網路：把「棋感」數位化

價值網路：一眼看出誰優勢的「裁判」

兩顆網路 + 搜尋樹：AlphaGo 的大腦組合技

留言

張貼留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇：新手完全不懂 Prompt，也能讓 AI 幫你生出專業 Prompt（超簡單）

蜀漢多代理智能架構 *AI 不是一個人工作，而是一個國家在運作。*

不要再學 Prompt: 第 2 篇：LLM 如何把人的意圖翻譯成高品質 Prompt？

蜀漢多代理智能架構 AI 不是一個人工作，而是一個國家在運作。