剖析 GPT 第四篇: 用股市的語言，看懂 AI 模型是怎麼被「訓練」出來的

12月 10, 2025

主力吸籌、洗盤、拉升：

用股市的語言，看懂 AI 模型是怎麼被「訓練」出來的

前言：AI 模型不是突然變聰明的，它是「被做出來」的

許多人第一次接觸 ChatGPT 時，
很容易以為它是一種突然「覺醒」的智慧。

它能解釋複雜議題
能寫文件、寫企劃、寫行銷稿
可以當助理、當顧問、當老師、當程式教練

但真正了解 AI 開發的人都知道：
大型語言模型並不是「自然長成」的，而是經過一連串「刻意的養成」。

如果你把 AI 工程師的訓練過程拆開，它其實像極了一種你很熟悉的東西：

主力操作：吸籌 → 洗盤 → 拉升。

這不是一個花俏的比喻。
而是模型訓練的本質：
先建立底部，再清洗雜訊，最後拉出符合人類預期的走勢。

這篇文章，我們就用股市語言，一層一層帶你看懂：

預訓練（Pretrain）：吸籌
微調（Fine-tune）：洗盤
RLHF（人類回饋強化學習）：拉升

這三件事如何塑造了你每天在用的 AI。

一、預訓練 = 主力吸籌：先把「市場」吃透，建立深厚底部

我們先從吸籌講起。

你知道主力進場最重要的一件事是什麼？

不是拉抬，也不是洗盤——
而是把籌碼吃夠、吃深、吃穩。

只有籌碼深厚，後面這一切才有戲。

AI 的吸籌階段，就是「預訓練」

在這一階段，模型什麼都不做，只做一件事：

讀。瘋狂地讀。

讀什麼？

書、論文、報導
程式碼、網路文章
企劃書、百科、技術文件
小說、劇本、對話
配方、API 規格、教學文

模型看到的文字，比你人生看過的書加起來多 10,000 倍以上。

這一切的目的，是讓模型建立一個「最粗但最廣」的底部：

語言結構
世界常識
基本推理
事件模板
因果模式
商業敘事
故事邏輯
人類常用的概念網絡

就像主力吸籌：

不是要漲
不是要拉
是要讓籌碼在自己手上
讓市場「隨我而動」

越大、越能吸

為什麼模型越大通常越強？
因為它的「吸籌容量」越大。

你給它同樣一大堆文本，
小模型只能吸一點點關鍵特徵；
大模型能吸進去的模式、規律、結構更多。

久而久之，兩者的「底部」差別，就像：

散戶 vs 主力
路人 vs 龍頭
新手 vs 職人

預訓練，就是在打造「模型的資本厚度」。

二、微調 = 主力洗盤：把雜訊洗掉，把走勢洗乾淨

吸完籌之後，主力要做什麼？

洗盤。

為什麼要洗？

因為吸籌時也順便吸進了一堆雜魚
因為市場太吵
因為籌碼結構不乾淨
因為你要清掉不想要的行為，讓後面走勢好控

AI 的微調（Fine-tune），目的完全一樣：

清雜訊、立方向、定角色。

在預訓練裡，模型吸到了「世界」

但沒有吸到「你想要它扮演的角色」。

舉例：

你希望它能：

像客服一樣回答嗎？
像行銷顧問一樣思考嗎？
像法律助手一樣語氣精準嗎？
像工程助理一樣寫程式嗎？
像醫學顧問一樣給你判讀方向嗎？

這些都需要「二次訓練」。

這就是微調的工作：

在模型原本的底部之上，
加上一層「你的需求」與「你的規則」。

你可以把它想成：

先買滿股票（預訓練）
再把市場洗成你要的形狀（微調）

微調也會洗掉你不想要的行為

在預訓練時，模型學到的東西太多太雜，包括：

偏見
口語垃圾
情緒化語句
不安全的語言
亂講話的慣性
不專業的敘事風格

微調可以把這些洗掉，這是一種「風險控制」。

但最大風險是「洗過頭」：AI 版的洗盤崩跌

洗盤洗過頭會怎樣？

散戶被洗光
籌碼斷層
主力自己也控制不了

對模型來說，這叫 災難性遺忘（Catastrophic Forgetting）。

洗太多、洗太重、洗錯方向，
模型會開始：

忘記預訓練學到的能力
變笨
回答變窄
彈性消失
外推能力變差

這就像你訓練一個很有天分的分析師：
本來什麼都懂，但你每天叫他只背一種題型，
最後他真的變成只能做那一題型。

解法是什麼？

工程界的做法叫 LoRA，但你可以把它理解為：

「用輕量調整，別動主力部位。
像試單，而不是整個倒貨。」

三、RLHF = 主力拉升：把能力拉出「形狀」，定調它的風格與邊界

吸籌是為了有底。
洗盤是為了乾淨、為了控盤。
剩下的就是「拉升」：

把能力「拉」到人類覺得最好用、最穩定、最安全的那個區間。

這就是 RLHF（Reinforcement Learning from Human Feedback）的角色：

RLHF 不是增加能力

而是讓能力「被正確使用」。

工程師給模型：

什麼回答比較能被接受
什麼語氣比較適合對話
什麼結構比較清楚
什麼風險必須避免
什麼類型的回答要堅決拒絕
哪些話題不能碰

這跟技術無關，是「人類偏好」的編碼。

你可以把 RLHF 想成：

主力把股價拉到「合理的軌道」，
讓市場看到「這支股票應該長這樣」。

在 AI 裡，這就變成：

回答更穩定
語氣更一致
錯誤率更低
不會亂暴走
講話更像「你期待的樣子」

RLHF 的本質是一種「修正風險敞口」

它不是讓模型更聰明，
而是讓模型更「可預測」。

你應該有遇過 GPT 的「前後代差」：

GPT-3 的創意很強，但容易亂講
GPT-3.5 開始穩一點
GPT-4 比較穩定，不太亂衝
GPT-4.1 又更穩了，可控性更高

這不是模型突然變乖，
而是工程師用 RLHF 一層一層把它「拉」到可控的區間。

四、三者合起來：AI 訓練流程就是一套完整的「控盤術」

整理一下：

階段	股市比喻	模型在做什麼
預訓練（Pretrain）	吸籌	建立底部，吸進語言與世界規律
微調（Fine-tune）	洗盤	清雜訊、定方向、調角色
RLHF	拉升	人類偏好對齊、讓能力穩定、安全、好用

如果你看懂這三段，你就能理解一件很重要的事：

AI 的強大不是來自某一個神秘時刻，而是來自這三種力量的配合。

你今天看到 GPT 能寫、能分析，是「吸籌」的功勞
它能用你聽得懂的方式說話，是「洗盤」的效果
它不會亂爆走，是「拉升」幫你守住的底線

這三個階段的比例不一樣，
模型的性格也會完全不同。

五、那企業該怎麼用這三步驟打造「自己的」AI？

如果你是企業主、創業者、資料科學團隊，
以下就是這套比喻在實際落地時的指南。

1. 預訓練：你大多用不到

因為太花錢、太花時間。

但你應該知道：

大模型的「底」是怎麼來的
你挑模型時，其實是挑「吸籌品質」

2. 微調：讓模型「變成你的人」

這部分你可以掌控，而且應該掌控：

用公司內部文件微調
用自家語氣與 SOP 微調
用專業領域資料微調
用低侵入式的方法（LoRA）微調

這就像是：

把一位世界級顧問，調整成「你的專屬顧問」。

3. RLHF：企業版是「對齊你的文化」

內部版本可以更針對性：

員工應對風格
對客戶的語氣
法遵與風險底線
跨部門溝通慣例

你不是在讓模型更聰明，
而是在讓它更「符合你想用的方式」。

六、小結：AI 模型的成長之路，就是一段控盤故事

如果你只能帶走一句話，那應該是這句：

預訓練給模型「能力」，微調給它「角色」，RLHF 給它「性格」。

吸籌 → 洗盤 → 拉升。
這三件事不是比喻，而是事實。

你每天使用的 AI，是這三股力量層層塑形後的結果：
既有深度（吸籌）、又有方向（洗盤）、還能保持穩定（拉升）。

而下一篇，我們要往更大的問題邁進：

👉 AI 有沒有情緒？

👉 模型說「很高興幫到你」是真的高興嗎？

👉 未來 AI 會不會發展出自己的「內在世界」？

這一篇會是整個系列最哲學、但也最貼近一般讀者好奇心的一章。

========

本著作由大力士的AI天地創造製作，以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

搜尋此網誌

大力士的AI 天地

剖析 GPT 第四篇: 用股市的語言，看懂 AI 模型是怎麼被「訓練」出來的

主力吸籌、洗盤、拉升：

前言：AI 模型不是突然變聰明的，它是「被做出來」的

一、預訓練 = 主力吸籌：先把「市場」吃透，建立深厚底部

AI 的吸籌階段，就是「預訓練」

越大、越能吸

二、微調 = 主力洗盤：把雜訊洗掉，把走勢洗乾淨

在預訓練裡，模型吸到了「世界」

微調也會洗掉你不想要的行為

但最大風險是「洗過頭」：AI 版的洗盤崩跌

三、RLHF = 主力拉升：把能力拉出「形狀」，定調它的風格與邊界

RLHF 不是增加能力

RLHF 的本質是一種「修正風險敞口」

四、三者合起來：AI 訓練流程就是一套完整的「控盤術」

五、那企業該怎麼用這三步驟打造「自己的」AI？

1. 預訓練：你大多用不到

2. 微調：讓模型「變成你的人」

3. RLHF：企業版是「對齊你的文化」

六、小結：AI 模型的成長之路，就是一段控盤故事

👉 AI 有沒有情緒？

👉 模型說「很高興幫到你」是真的高興嗎？

👉 未來 AI 會不會發展出自己的「內在世界」？

留言

張貼留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇：新手完全不懂 Prompt，也能讓 AI 幫你生出專業 Prompt（超簡單）

蜀漢多代理智能架構 AI 不是一個人工作，而是一個國家在運作。

不要再學 Prompt: 第 2 篇：LLM 如何把人的意圖翻譯成高品質 Prompt？

剖析 GPT 第四篇: 用股市的語言，看懂 AI 模型是怎麼被「訓練」出來的

主力吸籌、洗盤、拉升：

前言：AI 模型不是突然變聰明的，它是「被做出來」的

一、預訓練 = 主力吸籌：先把「市場」吃透，建立深厚底部

AI 的吸籌階段，就是「預訓練」

越大、越能吸

二、微調 = 主力洗盤：把雜訊洗掉，把走勢洗乾淨

在預訓練裡，模型吸到了「世界」

微調也會洗掉你不想要的行為

但最大風險是「洗過頭」：AI 版的洗盤崩跌

三、RLHF = 主力拉升：把能力拉出「形狀」，定調它的風格與邊界

RLHF 不是增加能力

RLHF 的本質是一種「修正風險敞口」

四、三者合起來：AI 訓練流程就是一套完整的「控盤術」

五、那企業該怎麼用這三步驟打造「自己的」AI？

1. 預訓練：你大多用不到

2. 微調：讓模型「變成你的人」

3. RLHF：企業版是「對齊你的文化」

六、小結：AI 模型的成長之路，就是一段控盤故事

👉 AI 有沒有情緒？

👉 模型說「很高興幫到你」是真的高興嗎？

👉 未來 AI 會不會發展出自己的「內在世界」？

留言

張貼留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇：新手完全不懂 Prompt，也能讓 AI 幫你生出專業 Prompt（超簡單）

蜀漢多代理智能架構 *AI 不是一個人工作，而是一個國家在運作。*

不要再學 Prompt: 第 2 篇：LLM 如何把人的意圖翻譯成高品質 Prompt？

蜀漢多代理智能架構 AI 不是一個人工作，而是一個國家在運作。