當 AlphaGo 遇上 ChatGPT:第六章:當工程師問 AI:「那能不能拿來玩股票?」
你手上有自帶AC充電的行動電源嗎? 是不是很方便?
當工程師問 AI:「那能不能拿來玩股票?」
最後,話題自然走到一個殘酷又實際的問題——股票投資。
股票投資就像下棋一樣,有輸有贏,有對手(市場)。
那 MuZero、Dreamer、MCTS 這些東西,有沒有可能找到「不敗聖杯」?
這裡有幾個殘酷但重要的現實:
-
沒有聖杯。
棋局是固定規則、完全資訊,
市場則是:非平穩、充滿噪音、規則會變,你的行為還會反過來改變市場。 -
但:有機會打造「會適應市場的策略系統」。
尤其是:-
你有 10~15 年交易資料
-
你在研究「主力行為」
-
某些股票真的明顯有人在運作、有節奏
-
這時候,AlphaZero / MuZero 的思路就派上用場了——
但不是照抄,而是「改造成金融版」。
小資投資人版的假設:我不動市場,只讀市場
為了讓問題先變得可解,我們先採用一個合理簡化:
先當自己是「小資玩家」,
市場對你來說幾乎是外生的,
你做的是:在這個外生環境裡,決定什麼時候進出。
這跟圍棋有一個本質差別:
-
圍棋:你下一手,盤面立刻被你改變
-
市場:你下一手,大部分時候盤面沒因你而改變(除非你是超大型主力)
這樣一來,世界模型看到的是:
-
一條長時間序列:價、量、技術指標、籌碼
-
你的動作只影響「你的資產曲線」,不太改變「市場本身」
MuZero / Dreamer-style 系統可以做的事變成:
-
把市場當成一個隨時間演化的「外部世界」
-
學習「在什麼狀態下,做什麼動作,長期報酬最好」
主力模型 + 世界模型:一個很工程的組合
工程師很敏銳地指出:
市場波動很亂;
但主力行為有節奏,反而比較好抓。
於是就有了一個很漂亮的兩層架構:
-
主力識別模型(監督式學習)
-
用價量、籌碼、技術指標
-
判斷現在比較像:吃貨、洗盤、拉抬、出貨、休息
-
-
策略 / 世界模型層(強化學習 / 世界模型)
-
以上述「主力狀態」+其他特徵當作 state
-
學習在不同主力階段下,什麼操作方式長期最有利
-
這個結構,本質上是一個「金融版 AlphaGo」:
-
主力模型 ≈ 給你盤面上隱藏的資訊(誰在操盤?節奏如何?)
-
世界模型 ≈ 理解市場狀態演變
-
策略網路 / 強化學習 ≈ 在這個宇宙裡找到一套「還算聰明」的玩法
沒有聖杯、沒有保證獲利,
但有機會打造一個「會隨市場變化而調整、看得懂主力節奏」的自適應系統。
尾聲:從棋盤到市場,從直覺到規劃
這整個故事,從一個看似單純的提問開始:
alphago 的策略網路跟價值網路是什麼?
往下一路追問,就會穿過:
-
DCNN 為什麼適合圍棋
-
Residual Block 解決了什麼
-
AlphaGo → AlphaZero → MuZero 的演化
-
Transformer / LLM 怎麼跟這些東西完全不同
-
CoT / ToT 如何把搜尋思維帶進語言模型
-
世界模型如何讓 AI 有「物理直覺」
-
最後再問:這一切能不能用在投資上?
過程中有一個模式一直重複出現:
把「直覺」變成網路,
把「評估」變成網路,
把「搜尋」變成演算法,
然後讓它們彼此對話。
對工程師來說,這不只是 AlphaGo 的故事,
也不只是 GPT、Gemini 的故事,
而是我們這一代在現場見證的一件事:
人類第一次,
把「會想下一步」這件事,
系統化地拆成可以編程、可以訓練、可以重組的模組。
棋盤、語言、投資市場,只是不同的舞台。
真正值得關注的,是我們正在學會,
如何設計一顆能「理解世界、模擬未來、做出選擇」的人工大腦。
========
本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出
留言
張貼留言