當 AlphaGo 遇上 ChatGPT：第三章：從 AlphaGo 到 AlphaZero，再到 MuZero

當 AlphaGo 遇上 ChatGPT：第三章：從 AlphaGo 到 AlphaZero，再到 MuZero

從 AlphaGo 到 AlphaZero，再到 MuZero

光會下圍棋還不夠，DeepMind 做的下一步，是把這種「下棋大腦」變成更通用的「策略機器」。

AlphaGo：勤奮的高材生

看人類棋譜起家（監督式學習）
有不少人類手工設計的棋盤特徵
策略 / 價值是兩個分開的網路

強，但還是站在「人類知識」的肩膀上。

AlphaGo Zero：天才的初學者

不看任何人類棋譜，只保留規則
完全靠自我對弈學棋
丟掉 rollouts，只用策略 + 價值 + 搜尋

訓練幾十天，全面超越前一代 AlphaGo。
關鍵訊息是：人類棋譜是有用，但也是一種偏見。

AlphaZero：通用的戰略家

把策略 & 價值合成一個「雙頭網路」
架構更乾淨
同一套系統可以下：圍棋、西洋棋、將棋

AlphaZero 軟硬體成本巨大，但概念非常純粹：
給我規則，我自己找出最佳策略。

MuZero：連規則都不用給

MuZero 更狠：
連轉移規則都不用明講（例如棋子怎麼走）。

它自己學出一個「內在世界模型」：

如何從當前狀態 + 動作 → 預測下一個狀態
如何在這個內在世界裡模擬未來（rollout）
再用搜尋、價值網路來選行動

這套架構不只適用於棋，
還能用在 Atari 遊戲、控制問題……
已經接近「機器自己發明物理規則」的感覺。

第四章：另一種文明——Transformer 與 LLM 的語言大腦

========

本著作由大力士的AI天地創造製作，以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言