當 AlphaGo 遇上 ChatGPT:第三章:從 AlphaGo 到 AlphaZero,再到 MuZero

 

從 AlphaGo 到 AlphaZero,再到 MuZero

光會下圍棋還不夠,DeepMind 做的下一步,是把這種「下棋大腦」變成更通用的「策略機器」。

AlphaGo:勤奮的高材生

  • 看人類棋譜起家(監督式學習)

  • 有不少人類手工設計的棋盤特徵

  • 策略 / 價值是兩個分開的網路

強,但還是站在「人類知識」的肩膀上。

AlphaGo Zero:天才的初學者

  • 不看任何人類棋譜,只保留規則

  • 完全靠自我對弈學棋

  • 丟掉 rollouts,只用策略 + 價值 + 搜尋

訓練幾十天,全面超越前一代 AlphaGo。
關鍵訊息是:人類棋譜是有用,但也是一種偏見。

AlphaZero:通用的戰略家

  • 把策略 & 價值合成一個「雙頭網路」

  • 架構更乾淨

  • 同一套系統可以下:圍棋、西洋棋、將棋

AlphaZero 軟硬體成本巨大,但概念非常純粹:
給我規則,我自己找出最佳策略。

MuZero:連規則都不用給

MuZero 更狠:
連轉移規則都不用明講(例如棋子怎麼走)。

它自己學出一個「內在世界模型」:

  • 如何從當前狀態 + 動作 → 預測下一個狀態

  • 如何在這個內在世界裡模擬未來(rollout)

  • 再用搜尋、價值網路來選行動

這套架構不只適用於棋,
還能用在 Atari 遊戲、控制問題……
已經接近「機器自己發明物理規則」的感覺。


第四章:另一種文明——Transformer 與 LLM 的語言大腦

========

本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇:新手完全不懂 Prompt,也能讓 AI 幫你生出專業 Prompt(超簡單)

蜀漢多代理智能架構 *AI 不是一個人工作,而是一個國家在運作。*

不要再學 Prompt: 第 2 篇:LLM 如何把人的意圖翻譯成高品質 Prompt?