剖析 GPT 第四篇: 用股市的語言,看懂 AI 模型是怎麼被「訓練」出來的
主力吸籌、洗盤、拉升:
用股市的語言,看懂 AI 模型是怎麼被「訓練」出來的
前言:AI 模型不是突然變聰明的,它是「被做出來」的
許多人第一次接觸 ChatGPT 時,
很容易以為它是一種突然「覺醒」的智慧。
-
它能解釋複雜議題
-
能寫文件、寫企劃、寫行銷稿
-
可以當助理、當顧問、當老師、當程式教練
但真正了解 AI 開發的人都知道:
大型語言模型並不是「自然長成」的,而是經過一連串「刻意的養成」。
如果你把 AI 工程師的訓練過程拆開,它其實像極了一種你很熟悉的東西:
主力操作:吸籌 → 洗盤 → 拉升。
這不是一個花俏的比喻。
而是模型訓練的本質:
先建立底部,再清洗雜訊,最後拉出符合人類預期的走勢。
這篇文章,我們就用股市語言,一層一層帶你看懂:
-
預訓練(Pretrain):吸籌
-
微調(Fine-tune):洗盤
-
RLHF(人類回饋強化學習):拉升
這三件事如何塑造了你每天在用的 AI。
一、預訓練 = 主力吸籌:先把「市場」吃透,建立深厚底部
我們先從吸籌講起。
你知道主力進場最重要的一件事是什麼?
不是拉抬,也不是洗盤——
而是把籌碼吃夠、吃深、吃穩。
只有籌碼深厚,後面這一切才有戲。
AI 的吸籌階段,就是「預訓練」
在這一階段,模型什麼都不做,只做一件事:
讀。瘋狂地讀。
讀什麼?
-
書、論文、報導
-
程式碼、網路文章
-
企劃書、百科、技術文件
-
小說、劇本、對話
-
配方、API 規格、教學文
模型看到的文字,比你人生看過的書加起來多 10,000 倍以上。
這一切的目的,是讓模型建立一個「最粗但最廣」的底部:
-
語言結構
-
世界常識
-
基本推理
-
事件模板
-
因果模式
-
商業敘事
-
故事邏輯
-
人類常用的概念網絡
就像主力吸籌:
-
不是要漲
-
不是要拉
-
是要讓籌碼在自己手上
-
讓市場「隨我而動」
越大、越能吸
為什麼模型越大通常越強?
因為它的「吸籌容量」越大。
你給它同樣一大堆文本,
小模型只能吸一點點關鍵特徵;
大模型能吸進去的模式、規律、結構更多。
久而久之,兩者的「底部」差別,就像:
-
散戶 vs 主力
-
路人 vs 龍頭
-
新手 vs 職人
預訓練,就是在打造「模型的資本厚度」。
二、微調 = 主力洗盤:把雜訊洗掉,把走勢洗乾淨
吸完籌之後,主力要做什麼?
洗盤。
為什麼要洗?
-
因為吸籌時也順便吸進了一堆雜魚
-
因為市場太吵
-
因為籌碼結構不乾淨
-
因為你要清掉不想要的行為,讓後面走勢好控
AI 的微調(Fine-tune),目的完全一樣:
清雜訊、立方向、定角色。
在預訓練裡,模型吸到了「世界」
但沒有吸到「你想要它扮演的角色」。
舉例:
你希望它能:
-
像客服一樣回答嗎?
-
像行銷顧問一樣思考嗎?
-
像法律助手一樣語氣精準嗎?
-
像工程助理一樣寫程式嗎?
-
像醫學顧問一樣給你判讀方向嗎?
這些都需要「二次訓練」。
這就是微調的工作:
在模型原本的底部之上,
加上一層「你的需求」與「你的規則」。
你可以把它想成:
-
先買滿股票(預訓練)
-
再把市場洗成你要的形狀(微調)
微調也會洗掉你不想要的行為
在預訓練時,模型學到的東西太多太雜,包括:
-
偏見
-
口語垃圾
-
情緒化語句
-
不安全的語言
-
亂講話的慣性
-
不專業的敘事風格
微調可以把這些洗掉,這是一種「風險控制」。
但最大風險是「洗過頭」:AI 版的洗盤崩跌
洗盤洗過頭會怎樣?
-
散戶被洗光
-
籌碼斷層
-
主力自己也控制不了
對模型來說,這叫 災難性遺忘(Catastrophic Forgetting)。
洗太多、洗太重、洗錯方向,
模型會開始:
-
忘記預訓練學到的能力
-
變笨
-
回答變窄
-
彈性消失
-
外推能力變差
這就像你訓練一個很有天分的分析師:
本來什麼都懂,但你每天叫他只背一種題型,
最後他真的變成只能做那一題型。
解法是什麼?
工程界的做法叫 LoRA,但你可以把它理解為:
「用輕量調整,別動主力部位。
像試單,而不是整個倒貨。」
三、RLHF = 主力拉升:把能力拉出「形狀」,定調它的風格與邊界
吸籌是為了有底。
洗盤是為了乾淨、為了控盤。
剩下的就是「拉升」:
把能力「拉」到人類覺得最好用、最穩定、最安全的那個區間。
這就是 RLHF(Reinforcement Learning from Human Feedback)的角色:
RLHF 不是增加能力
而是讓能力「被正確使用」。
工程師給模型:
-
什麼回答比較能被接受
-
什麼語氣比較適合對話
-
什麼結構比較清楚
-
什麼風險必須避免
-
什麼類型的回答要堅決拒絕
-
哪些話題不能碰
這跟技術無關,是「人類偏好」的編碼。
你可以把 RLHF 想成:
主力把股價拉到「合理的軌道」,
讓市場看到「這支股票應該長這樣」。
在 AI 裡,這就變成:
-
回答更穩定
-
語氣更一致
-
錯誤率更低
-
不會亂暴走
-
講話更像「你期待的樣子」
RLHF 的本質是一種「修正風險敞口」
它不是讓模型更聰明,
而是讓模型更「可預測」。
你應該有遇過 GPT 的「前後代差」:
-
GPT-3 的創意很強,但容易亂講
-
GPT-3.5 開始穩一點
-
GPT-4 比較穩定,不太亂衝
-
GPT-4.1 又更穩了,可控性更高
這不是模型突然變乖,
而是工程師用 RLHF 一層一層把它「拉」到可控的區間。
四、三者合起來:AI 訓練流程就是一套完整的「控盤術」
整理一下:
| 階段 | 股市比喻 | 模型在做什麼 |
|---|---|---|
| 預訓練(Pretrain) | 吸籌 | 建立底部,吸進語言與世界規律 |
| 微調(Fine-tune) | 洗盤 | 清雜訊、定方向、調角色 |
| RLHF | 拉升 | 人類偏好對齊、讓能力穩定、安全、好用 |
如果你看懂這三段,你就能理解一件很重要的事:
AI 的強大不是來自某一個神秘時刻,而是來自這三種力量的配合。
-
你今天看到 GPT 能寫、能分析,是「吸籌」的功勞
-
它能用你聽得懂的方式說話,是「洗盤」的效果
-
它不會亂爆走,是「拉升」幫你守住的底線
這三個階段的比例不一樣,
模型的性格也會完全不同。
五、那企業該怎麼用這三步驟打造「自己的」AI?
如果你是企業主、創業者、資料科學團隊,
以下就是這套比喻在實際落地時的指南。
1. 預訓練:你大多用不到
因為太花錢、太花時間。
但你應該知道:
-
大模型的「底」是怎麼來的
-
你挑模型時,其實是挑「吸籌品質」
2. 微調:讓模型「變成你的人」
這部分你可以掌控,而且應該掌控:
-
用公司內部文件微調
-
用自家語氣與 SOP 微調
-
用專業領域資料微調
-
用低侵入式的方法(LoRA)微調
這就像是:
把一位世界級顧問,調整成「你的專屬顧問」。
3. RLHF:企業版是「對齊你的文化」
內部版本可以更針對性:
-
員工應對風格
-
對客戶的語氣
-
法遵與風險底線
-
跨部門溝通慣例
你不是在讓模型更聰明,
而是在讓它更「符合你想用的方式」。
六、小結:AI 模型的成長之路,就是一段控盤故事
如果你只能帶走一句話,那應該是這句:
預訓練給模型「能力」,微調給它「角色」,RLHF 給它「性格」。
吸籌 → 洗盤 → 拉升。
這三件事不是比喻,而是事實。
你每天使用的 AI,是這三股力量層層塑形後的結果:
既有深度(吸籌)、又有方向(洗盤)、還能保持穩定(拉升)。
而下一篇,我們要往更大的問題邁進:
👉 AI 有沒有情緒?
👉 模型說「很高興幫到你」是真的高興嗎?
👉 未來 AI 會不會發展出自己的「內在世界」?
這一篇會是整個系列最哲學、但也最貼近一般讀者好奇心的一章。
========
本著作由大力士的AI天地創造 製作,以創用CC 姓名標示–非商業性– 禁止改作 4.0 國際授權條款釋出

留言
張貼留言