剖析 GPT 第四篇: 用股市的語言,看懂 AI 模型是怎麼被「訓練」出來的


主力吸籌、洗盤、拉升:

用股市的語言,看懂 AI 模型是怎麼被「訓練」出來的

前言:AI 模型不是突然變聰明的,它是「被做出來」的



許多人第一次接觸 ChatGPT 時,
很容易以為它是一種突然「覺醒」的智慧。

  • 它能解釋複雜議題

  • 能寫文件、寫企劃、寫行銷稿

  • 可以當助理、當顧問、當老師、當程式教練

但真正了解 AI 開發的人都知道:
大型語言模型並不是「自然長成」的,而是經過一連串「刻意的養成」。

如果你把 AI 工程師的訓練過程拆開,它其實像極了一種你很熟悉的東西:

主力操作:吸籌 → 洗盤 → 拉升。

這不是一個花俏的比喻。
而是模型訓練的本質:
先建立底部,再清洗雜訊,最後拉出符合人類預期的走勢。

這篇文章,我們就用股市語言,一層一層帶你看懂:

  • 預訓練(Pretrain):吸籌

  • 微調(Fine-tune):洗盤

  • RLHF(人類回饋強化學習):拉升

這三件事如何塑造了你每天在用的 AI。


一、預訓練 = 主力吸籌:先把「市場」吃透,建立深厚底部

我們先從吸籌講起。

你知道主力進場最重要的一件事是什麼?

不是拉抬,也不是洗盤——
而是把籌碼吃夠、吃深、吃穩。

只有籌碼深厚,後面這一切才有戲。

AI 的吸籌階段,就是「預訓練」

在這一階段,模型什麼都不做,只做一件事:

讀。瘋狂地讀。

讀什麼?

  • 書、論文、報導

  • 程式碼、網路文章

  • 企劃書、百科、技術文件

  • 小說、劇本、對話

  • 配方、API 規格、教學文

模型看到的文字,比你人生看過的書加起來多 10,000 倍以上。

這一切的目的,是讓模型建立一個「最粗但最廣」的底部:

  • 語言結構

  • 世界常識

  • 基本推理

  • 事件模板

  • 因果模式

  • 商業敘事

  • 故事邏輯

  • 人類常用的概念網絡

就像主力吸籌:

  • 不是要漲

  • 不是要拉

  • 是要讓籌碼在自己手上

  • 讓市場「隨我而動」

越大、越能吸

為什麼模型越大通常越強?
因為它的「吸籌容量」越大。

你給它同樣一大堆文本,
小模型只能吸一點點關鍵特徵;
大模型能吸進去的模式、規律、結構更多。

久而久之,兩者的「底部」差別,就像:

  • 散戶 vs 主力

  • 路人 vs 龍頭

  • 新手 vs 職人

預訓練,就是在打造「模型的資本厚度」。


二、微調 = 主力洗盤:把雜訊洗掉,把走勢洗乾淨

吸完籌之後,主力要做什麼?

洗盤。

為什麼要洗?

  • 因為吸籌時也順便吸進了一堆雜魚

  • 因為市場太吵

  • 因為籌碼結構不乾淨

  • 因為你要清掉不想要的行為,讓後面走勢好控

AI 的微調(Fine-tune),目的完全一樣:

清雜訊、立方向、定角色。

在預訓練裡,模型吸到了「世界」

但沒有吸到「你想要它扮演的角色」。

舉例:

你希望它能:

  • 像客服一樣回答嗎?

  • 像行銷顧問一樣思考嗎?

  • 像法律助手一樣語氣精準嗎?

  • 像工程助理一樣寫程式嗎?

  • 像醫學顧問一樣給你判讀方向嗎?

這些都需要「二次訓練」。

這就是微調的工作:

在模型原本的底部之上,
加上一層「你的需求」與「你的規則」。

你可以把它想成:

  • 先買滿股票(預訓練)

  • 再把市場洗成你要的形狀(微調)

微調也會洗掉你不想要的行為

在預訓練時,模型學到的東西太多太雜,包括:

  • 偏見

  • 口語垃圾

  • 情緒化語句

  • 不安全的語言

  • 亂講話的慣性

  • 不專業的敘事風格

微調可以把這些洗掉,這是一種「風險控制」。

但最大風險是「洗過頭」:AI 版的洗盤崩跌

洗盤洗過頭會怎樣?

  • 散戶被洗光

  • 籌碼斷層

  • 主力自己也控制不了

對模型來說,這叫 災難性遺忘(Catastrophic Forgetting)

洗太多、洗太重、洗錯方向,
模型會開始:

  • 忘記預訓練學到的能力

  • 變笨

  • 回答變窄

  • 彈性消失

  • 外推能力變差

這就像你訓練一個很有天分的分析師:
本來什麼都懂,但你每天叫他只背一種題型,
最後他真的變成只能做那一題型。

解法是什麼?

工程界的做法叫 LoRA,但你可以把它理解為:

「用輕量調整,別動主力部位。
像試單,而不是整個倒貨。」


三、RLHF = 主力拉升:把能力拉出「形狀」,定調它的風格與邊界

吸籌是為了有底。
洗盤是為了乾淨、為了控盤。
剩下的就是「拉升」:

把能力「拉」到人類覺得最好用、最穩定、最安全的那個區間。

這就是 RLHF(Reinforcement Learning from Human Feedback)的角色:

RLHF 不是增加能力

而是讓能力「被正確使用」。

工程師給模型:

  • 什麼回答比較能被接受

  • 什麼語氣比較適合對話

  • 什麼結構比較清楚

  • 什麼風險必須避免

  • 什麼類型的回答要堅決拒絕

  • 哪些話題不能碰

這跟技術無關,是「人類偏好」的編碼。

你可以把 RLHF 想成:

主力把股價拉到「合理的軌道」,
讓市場看到「這支股票應該長這樣」。

在 AI 裡,這就變成:

  • 回答更穩定

  • 語氣更一致

  • 錯誤率更低

  • 不會亂暴走

  • 講話更像「你期待的樣子」

RLHF 的本質是一種「修正風險敞口」

它不是讓模型更聰明,
而是讓模型更「可預測」。

你應該有遇過 GPT 的「前後代差」:

  • GPT-3 的創意很強,但容易亂講

  • GPT-3.5 開始穩一點

  • GPT-4 比較穩定,不太亂衝

  • GPT-4.1 又更穩了,可控性更高

這不是模型突然變乖,
而是工程師用 RLHF 一層一層把它「拉」到可控的區間。


四、三者合起來:AI 訓練流程就是一套完整的「控盤術」

整理一下:

階段 股市比喻 模型在做什麼
預訓練(Pretrain) 吸籌 建立底部,吸進語言與世界規律
微調(Fine-tune) 洗盤 清雜訊、定方向、調角色
RLHF 拉升 人類偏好對齊、讓能力穩定、安全、好用

如果你看懂這三段,你就能理解一件很重要的事:

AI 的強大不是來自某一個神秘時刻,而是來自這三種力量的配合。

  • 你今天看到 GPT 能寫、能分析,是「吸籌」的功勞

  • 它能用你聽得懂的方式說話,是「洗盤」的效果

  • 它不會亂爆走,是「拉升」幫你守住的底線

這三個階段的比例不一樣,
模型的性格也會完全不同。


五、那企業該怎麼用這三步驟打造「自己的」AI?

如果你是企業主、創業者、資料科學團隊,
以下就是這套比喻在實際落地時的指南。

1. 預訓練:你大多用不到

因為太花錢、太花時間。

但你應該知道:

  • 大模型的「底」是怎麼來的

  • 你挑模型時,其實是挑「吸籌品質」

2. 微調:讓模型「變成你的人」

這部分你可以掌控,而且應該掌控:

  • 用公司內部文件微調

  • 用自家語氣與 SOP 微調

  • 用專業領域資料微調

  • 用低侵入式的方法(LoRA)微調

這就像是:

把一位世界級顧問,調整成「你的專屬顧問」。

3. RLHF:企業版是「對齊你的文化」

內部版本可以更針對性:

  • 員工應對風格

  • 對客戶的語氣

  • 法遵與風險底線

  • 跨部門溝通慣例

你不是在讓模型更聰明,
而是在讓它更「符合你想用的方式」。


六、小結:AI 模型的成長之路,就是一段控盤故事

如果你只能帶走一句話,那應該是這句:

預訓練給模型「能力」,微調給它「角色」,RLHF 給它「性格」。

吸籌 → 洗盤 → 拉升。
這三件事不是比喻,而是事實。

你每天使用的 AI,是這三股力量層層塑形後的結果:
既有深度(吸籌)、又有方向(洗盤)、還能保持穩定(拉升)。

而下一篇,我們要往更大的問題邁進:

👉 AI 有沒有情緒?

👉 模型說「很高興幫到你」是真的高興嗎?

👉 未來 AI 會不會發展出自己的「內在世界」?

這一篇會是整個系列最哲學、但也最貼近一般讀者好奇心的一章。


========

本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言

這個網誌中的熱門文章

不要再學 Prompt : 第 1 篇:新手完全不懂 Prompt,也能讓 AI 幫你生出專業 Prompt(超簡單)

蜀漢多代理智能架構 *AI 不是一個人工作,而是一個國家在運作。*

不要再學 Prompt: 第 2 篇:LLM 如何把人的意圖翻譯成高品質 Prompt?