當 AlphaGo 遇上 ChatGPT:第三章:從 AlphaGo 到 AlphaZero,再到 MuZero
從 AlphaGo 到 AlphaZero,再到 MuZero
光會下圍棋還不夠,DeepMind 做的下一步,是把這種「下棋大腦」變成更通用的「策略機器」。
AlphaGo:勤奮的高材生
-
看人類棋譜起家(監督式學習)
-
有不少人類手工設計的棋盤特徵
-
策略 / 價值是兩個分開的網路
強,但還是站在「人類知識」的肩膀上。
AlphaGo Zero:天才的初學者
-
不看任何人類棋譜,只保留規則
-
完全靠自我對弈學棋
-
丟掉 rollouts,只用策略 + 價值 + 搜尋
訓練幾十天,全面超越前一代 AlphaGo。
關鍵訊息是:人類棋譜是有用,但也是一種偏見。
AlphaZero:通用的戰略家
-
把策略 & 價值合成一個「雙頭網路」
-
架構更乾淨
-
同一套系統可以下:圍棋、西洋棋、將棋
AlphaZero 軟硬體成本巨大,但概念非常純粹:
給我規則,我自己找出最佳策略。
MuZero:連規則都不用給
MuZero 更狠:
連轉移規則都不用明講(例如棋子怎麼走)。
它自己學出一個「內在世界模型」:
-
如何從當前狀態 + 動作 → 預測下一個狀態
-
如何在這個內在世界裡模擬未來(rollout)
-
再用搜尋、價值網路來選行動
這套架構不只適用於棋,
還能用在 Atari 遊戲、控制問題……
已經接近「機器自己發明物理規則」的感覺。
第四章:另一種文明——Transformer 與 LLM 的語言大腦
========
本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出
留言
張貼留言