LLM 的疆界:為何多數人只用到1%能力?

0. 提問、互動到協作的新範式

許多人與大型語言模型(LLM)的初次接觸,始於在 ChatGPT 的文字框中輸入一個問題,然後驚訝於它能以流暢、擬人的方式給出答案。這種體驗雖然神奇,卻也容易讓人產生誤解,將其視為一個無所不知的「魔法黑盒子」。然而,這種看法僅僅觸及了表面。要真正駕馭這些強大的工具,我們必須超越單純的「對話」,深入理解其運作的核心機制——從它的訊息壓縮本質,到我們與它之間互動所共同建構的上下文窗口(Context Window)。

透過系統性地拆解當代LLM的實用框架,我們就能從一個基礎使用者,蛻變為能夠充分利用其思考、工具整合、多模態互動與個人化定製能力的專家,也就是將其從一個偶爾使用的工具,轉變為深度整合於個人生活與專業工作流程中,不可或缺的認知夥伴。

1. 「一個會說話的 1TB 壓縮檔」

在我們開始探索之前,必須先建立一個正確的模型觀念。當你與 ChatGPT 或任何類似的模型互動時,你究竟在與什麼對話?

答案並非一個全知的意識,而更像是一個巨大的、經過特殊處理的「有損壓縮檔」。這個壓縮檔的原始資料,來自整個公開網際網路的浩瀚文本、圖片以及影音資料。

1.1 知識的來源:預訓練(Pre-training)

LLM 的核心知識,來自於一個稱為「預訓練」的階段。想像一下,一個超級電腦花費數月時間,耗資數千萬美元,閱讀了幾乎所有能找到的網路文章、書籍、論文和程式碼。它的任務極其單純:在給定一段文本後,預測下一個最可能出現的詞元(token)。

為了完成這個任務,神經網路被迫學習語言的文法、句式、事實、邏輯、因果關係,甚至是不同文化背景下的語氣和風格。所有這些學習成果,都被壓縮並儲存在神經網路的數萬億個「參數」(parameters)中。這個過程就像製作一個ZIP壓縮檔,但這絕非無損壓縮。由於不可能完美記住所有資訊,模型只能捕捉到網際網路的「重點」或「感覺」。

這也因此帶來了一個重要的特性:知識截斷點(Knowledge Cutoff)。例如,GPT-4o 的預訓練可能是在幾個月甚至一年前完成的。因此,它對於近期發生的事件一無所知,因為這些資訊並未包含在它的「壓縮檔」裡。要讓模型處理最新資訊,就需要後續將提到的「工具使用」。

1.2 人格的由來:後訓練(Post-training)

一個只會生成網際網路文檔的模型,對普通用戶來說並不實用。我們需要的是一個能聽懂指令、回答問題的「助理」。這就是「後訓練」階段的作用,它相當於為這個巨大的壓縮檔安上一個「可靠的人格」。

在這個階段,開發人員會用一個全新的資料集——由人類標註員精心製作的「對話」資料集——來微調模型。這個資料集包含了大量的提問與理想的回答範例。透過學習這些範例,模型學會了扮演一個樂於助人、遵循指令、安全無害的AI助理角色。

所以,我們可以想像LLM會這樣自我介紹:

你好,我是一個大型語言模型。你可以把我看作一個大約1TB的壓縮檔。我的知識來自於約半年前我完整閱讀過的網際網路,但我只記得大概。我討人喜歡的個性,則是由人類標註員透過範例教給我的。

1.3 「協作書寫一個不斷延長的 Token 序列」

當我們在聊天視窗中看到一來一回的對話氣泡時,其底層發生的事情更為精確。我們的每一次輸入和模型的每一次回應,都會被切分成稱為「詞元」(Tokens)的最小語意單元。一個Token可以是一個詞、半個詞或一個標點符號。

例如,「寫一首關於大型語言模型的俳句」這個提示在底層會被轉換為一個由x個Token組成的一維序列。模型的回答「字句如川流,無盡回響意念空,幽思未曾見」則是另一個y個Token的序列。

這其實不是兩段獨立的文本,而是一個連續的「Token序列」(Token Stream)。當我們輸入問題並按下發送時,我們是在開頭寫入了我們的Token序列;接著,我們將控制權交給模型,模型則繼續在這個序列的後面追加它的Token序列,直到它生成一個表示「我說完了」的特殊Token,再將控制權交還給我們。

我們其實與模型正在共同協作,擴展一個單一的、一維的Token序列。這個序列所在的空間,被稱為「上下文視窗」(Context Window),它就像這次對話的「工作記憶」。所有在這個視窗內的資訊,模型都可以直接取用。

理解了這個「壓縮檔」和「Token序列」的核心概念後,我們就能更深刻地理解LLM的行為、優勢與局限,並學會如何更有效地與之互動。

2. 如何與模糊的內在知識溝通

既然我們知道LLM是一個基於其「記憶」進行機率性回應的實體,我們就應該調整與之互動的策略。

2.1 選擇合適的問題

什麼樣的問題適合直接詢問LLM的「內在知識」?答案是那些普遍、常見且非時效性的資訊。

例如,我可以詢問:「富良野薰衣草大約什麼時候會滿開?」這是一個很好的問題。原因有二:第一,這類花季資訊每年都會被大量記錄與報導,因此模型在預訓練階段會反覆接觸,記憶深刻。第二,花季的時間雖可能受氣候影響略有差異,但年年相近,屬於「低變動、高可預測性」的知識。模型可能會回答「7月中旬是盛開高峰」,雖不保證精確對應當年天氣,但整體可信度極高,且能快速與觀光局網站或花況直播做交叉驗證。

另一個例子是我詢問:「30歲男性的建議睡眠時間大約是多少?」模型可以根據大量醫學文獻與健康建議,回應「一般建議為 7 至 9 小時」。這類回應屬於以統計平均為基礎的健康建議,在大多數人身上都有參考價值。然而,這仍然需要我根據自己的生活型態、作息品質與精神狀況來做調整與驗證。畢竟模型給出的只是「一般建議區間」,並非針對個人的精密診斷。即使如此,這樣的互動方式,在日常健康管理中非常實用。

2.2 認知資源─上下文視窗

隨著對話的進行,上下文視窗中的Token會越來越多。這裡有一個重要的使用方式:當切換主題時,務必點擊「開啟新對話」(New Chat)

這麼做有兩個好處:

  1. 提升準確性
    上下文視窗是模型的工作記憶。如果裡面堆滿了與當前問題無關的舊資訊,模型在生成新答案時可能會「分心」,導致回答品質下降。
  2. 提升效率
    上下文視窗越長,模型計算下一個Token所需的時間和計算資源就越多。清空視窗能讓模型反應更快。

將上下文視窗視為一種寶貴資源。保持其簡潔、相關,能讓你的LLM夥伴表現得更聰明、更敏捷。

2.3 認識你的模型

LLM並非生而平等。在ChatGPT的介面左上角,你可以選擇不同的模型,例如o3、o4-mini-high、o4-mini、GPT-4o或其更小、更快的版本。在其他平台,如Claude、Gemini、Grok等,也存在類似的模型層級。

通常,這些公司會將其最大、能力最強的模型作為付費方案的核心。例如,免費版的ChatGPT可能主要使用GPT-4o mini,它在寫作創意、知識深度和邏輯推理上都不及付費版用戶能使用的旗艦模型GPT-o3。

這就引出了一個「LLM顧問團」(LLM Council)的概念。在處理重要或複雜的問題時,一個有效的策略是將同一個問題拋給多個不同的頂級模型(如ChatGPT的GPT-o3、Anthropic的Claude 4 Sonnet、Google的Gemini 2.5 Pro、xAI的Grok 4),然後綜合比較它們的回答。每個模型都有其獨特的「個性」和微小的能力差異。在做旅行規劃時,我就會詢問所有模型推薦的目的地,並從中汲取靈感。

你需要根據自己的使用場景和預算(我個人只訂閱ChatGPT Plus以及Gemini Pro),做出明智的權衡。對於專業工作,特別是涉及程式設計或複雜分析的任務,投資於頂級模型的費用往往物超所值。

3. 能力的躍遷——從「回答」到「思考」

近期來,LLM領域最大的突破之一,是「思考模型」(Thinking Models)的出現。這些模型在傳統的三階段訓練(預訓練、監督式微調)之後,增加了一個基於強化學習(Reinforcement Learning)的階段。

在這個階段,模型會被給予大量複雜的數學、程式設計和邏輯推理問題,並被鼓勵去「練習」解決它們。模型可以自由探索不同的解題路徑,嘗試、犯錯、回溯、修正假設。那些最終能導向正確答案的「思維鏈」(Chain of Thought)會得到獎勵。

這個過程,讓模型內化了一種類似人類的「獨白思考」(Inner Monologue)。當你向一個思考模型提問時,它不再是直接給出答案,而是會先在內部生成大量的思考步驟,這個過程可能需要幾十秒甚至幾分鐘。

3.1 思考模型的應用場景

思考模型的威力在於處理高難度、需要多步推理的任務

一個典型的例子是除錯程式碼。我最近使用Gemini 2.5 Pro寫了一段Tampermonkey 抽取網頁資料的腳本,也試圖在網頁上注入一個按鈕來執行。很奇妙的是,看起來正確的代碼卻無法成功注入按鈕,擷取資料也有闕漏。為了節省上下文,我先問了ChatGPT-4o,尋求解答,但它只給出了一些常規的建議,未觸及問題核心。

接著,我切換到OpenAI的思考模型(目前以o系列命名,如o3),並給了它完全相同的提示。模型花了將近一分鐘的時間進行「思考」(介面上會顯示思考過程的摘要),然後精準地指出了問題所在:注入位置的選擇。這個答案直接解決了我的問題。

有趣的是,我也將這個問題給了Gemini 2.5 Pro,雖然普遍而言Gemini 2.5 Pro在Chatbot Arena能力排名第一,但它似乎很難解決自己生成的程式碼bug。這再次印證了「LLM顧問團」策略的有效性

由於部分公司對思考模型有使用限制,因此使用原則是: 對於簡單問答(如旅行建議),使用標準模型以獲得快速回應。當你遇到複雜難題,或者對標準模型的回答不滿意時,再切換到思考模型,給予它充分的時間去「深思熟慮」。

4. 打破壁壘——透過「工具」連接真實世界

到目前為止,我們討論的LLM本質上仍是一個封閉、有損的「壓縮檔」。為了讓它能夠與現實世界互動,部分LLM已經有了使用工具(Tools)的能力。

4.1 工具:網際網路搜尋

這是最基本也最重要的工具,它解決了LLM的「知識截斷」問題。

假設我想知道院線電影F1 IMDb的評分時,這是一個非常新的資訊,模型的內在知識庫裡肯定沒有。在過去,我需要自己去Google搜尋,然後該網頁中搜尋F1尋找答案。

現在,我可以將這個問題交給具備搜尋能力的ChatGPT-4o,其工作流程如下:
1. 模型自動識別出這個問題需要即時資訊。
2. 模型生成一個或多個搜尋查詢。
3. 應用程式接收到這個指令,執行搜尋,並抓取排名靠前的幾個網頁的全部文本。
4. 這些網頁文本被「塞進」當前對話的上下文視窗中。
5. 模型閱讀這些網頁內容,並從中總結出準確的答案附上資料來源。

這個功能極大地擴展了LLM的實用性。當你需要最新資訊、會隨時間變化的資訊(如公司財報、產品價格)或非常小眾的資訊時,甚至需要進行事實查核時,都應該優先使用搜尋工具。

4.2 工具:深度研究(Deep Research)

如果說單次搜尋是讓LLM看幾篇新聞,那麼「深度研究」就是讓它為你寫一篇研究報告。這是一個結合了大規模網際網路搜尋和思考模型能力的進階功能。

前陣子我朋友說股市恐慌是財富重分配的機會。當時我確實沒有一個完整的策略,可以執行;但之後我啟用了深度研究功能的ChatGPT提出了詳細問題,涵蓋了研究歷史震盪數據、標的選擇及投入原則等。

模型花了將近8分鐘時間,它自主地進行了數十次搜尋,閱讀了包括歷史資料、標的(個股、2x ETF和健期權)在內的38個來源,最終生成了一份結構清晰、引用詳實的綜合報告。

雖然這份報告同樣需要批判性地看待,並親自查證關鍵引文,但它在幾分鐘內為我完成的資訊收集和整理工作,可能需要我自己花上數小時。對於需要快速了解一個陌生領域的場景,例如商品比較、技術調研,深度研究功能非常好用。

4.3 工具:程式碼執行

LLM在數學運算上其實非常糟糕,因為它的本質是語言預測,而非精確計算。一個複雜的乘法 12345 * 67890,很多模型會直接「在腦中」計算並給出一個看似合理但錯誤的答案。

具備程式碼執行工具的LLM則會「意識到」自己的短處。它不會嘗試心算,而是會:
1. 寫下一行Python程式碼:`print(12345 * 67890)`。
2. 將這行程式碼交給一個安全的、沙箱環境中的Python直譯器執行。
3. 獲取直譯器的輸出結果。
4. 將這個精確的結果呈現給你。

這個能力的延伸極其強大。你可以上傳一個Excel表格,然後用自然語言指揮它進行資料清洗、分析、視覺化繪圖,甚至是建立預測模型;當然,你也可以要求將完整的程式碼返回,之後在本機執行。

我分析公司業績增長趨勢的例子中,我僅用幾句話就讓它繪製了帶有對數座標和趨勢線的圖表。然而,使用這類工具時,審查它生成的程式碼是必要的。它是一個強大的助手,但你仍需是那個負責監督和驗證的專家。

4.4 工具:程式設計IDE整合與UI生成

對於專業開發者而言,在網頁上複製貼上程式碼片段的效率太低。真正的革命發生在將LLM直接整合進整合式開發環境(IDE)中。像Cursor這樣的工具,它本身就是一個IDE,但內建了強大的LLM。

開發者不再需要逐行編寫程式碼,而是進入一種被稱為Vibe Coding的模式。你可以用高層次的指令描述你的需求,例如:「建立一個井字棋遊戲」、「當有玩家獲勝時,加入五彩紙屑慶祝效果和勝利音效」。LLM代理會自動理解需求,安裝必要的函式庫,並在多個檔案之間修改程式碼來實現功能。幾分鐘內就透過這種方式完成了一個功能完整的井字棋應用。

而Claude的Artifacts功能則是在另一個方向上的探索。它可以根據你的需求,即時生成一個可以在瀏覽器中直接互動的預覽。例如,你可以讓它把一段文字轉化為一個抽認卡(Flashcard)練習應用,或者將一個複雜章節的內容,生成一個Mermaid.js概念關係圖,這對於視覺化思考者來說極其有用。

ChatGPT及Gemini也有Canvas功能,也有一定程度執行代碼或者生成UI的預覽功能。

5. 語音、圖像與影像的多模態革命

LLM正在迅速超越文字的束縛。其底層的Transformer架構是模態無關的,只要能將圖像、語音或影像「Tokenized」,模型就能以同樣的方式學習和生成它們。

5.1 語音互動

語音互動有兩種層次:

  1. 「偽」語音互動:
    這是將「語音轉文字」(STT)和「文字轉語音」(TTS)兩個獨立功能串接起來。你在手機上按住麥克風說話,手機將其轉為文字發送給LLM;LLM返回文字後,手機再將其朗讀出來。這很方便,但模型本身仍在處理文字。
  2. 「真」語音互動:
    這是指模型能夠直接處理和生成語音Token。ChatGPT的「語音模式」就是代表,不過現在幾乎大型的公司都已經有相關功能。在這種模式下,對話是端到端的語音流,不涉及中間的文字轉換。這使得互動極其流暢、低延遲,並能捕捉到語氣、情感等非語言資訊。不同的語音模式甚至提供了「浪漫」、「陰謀論」等多種「人格」,滿足各種需求。

此外,Google的NotebookLM開創了另一種有趣的語音互動:生成Podcast。你可以上傳任何文件(如一篇學術論文),它就能為你生成一段數十分鐘、由兩位AI主播對談的深度解析Podcast。這對於在通勤或散步時被動學習新知識非常有用。

5.2 圖像與影像互動

圖像輸入:你可以上傳任何圖像並向LLM提問。這在現實生活中有著廣泛的應用:

  • 拍下食品營養標示,詢問各種成分的作用和潛在風險。
  • 上傳體檢報告,讓它幫你解讀各項指標的意義(注意:僅供參考,不能替代醫囑)。
  • 截圖看不懂的數學公式或迷因(meme),讓它為你解釋。
  • 拍下牙膏成分表,讓它分析哪些是核心功能成分,哪些是可能無益的添加劑。

圖像生成:以OpenAI的和Midjourney為代表,你可以用文字描述生成任何風格的高品質圖像,常用於製作簡報插圖、部落格封面或社交媒體素材。

影像互動:最新的進展是讓LLM能夠即時「看見」。在ChatGPT的行動應用中,你可以開啟相機,將鏡頭對準房間裡的任何物體,並與模型進行實時對話。你可以問它「這本書是什麼?」、「我桌上的這個二氧化碳監測儀讀數正常嗎?」、「這幅地圖是哪裡的?」。它就像一個永遠在你身邊的、博學的朋友。

6. 量身訂製——打造你的個人化AI

6.1 記憶(Memory)

預設情況下,每一次新對話都是一次「失憶」的開始。ChatGPT的「記憶」功能打破了這一點。當你在對話中透露了個人偏好或重要資訊時(例如,你告訴它你認為「90年代是好萊塢的黃金時代」),它可以將這個資訊點儲存到一個關於你的專屬資料庫中。

在之後的每一次對話開始前,這些「記憶」會被自動載入到上下文視窗的頂部。久而久之,模型會越來越了解你,給出的建議(如電影推薦)也會更加個人化。你可以隨時管理、編輯或刪除這些記憶。

此外,ChatGPT也有Chat History Reference(歷史對話參考)的功能;模型會自動從過往聊天內容抽取相關資訊並加以應用,尤其是常提及或反覆出現的細節,是非常好用的功能。

6.2 客製化指令(Custom Instructions)

這是一個全域設定,可以讓你預先定義模型的行為準則和你的個人背景。

例如,你可以這樣告訴它來跟看護互動:

你是一台翻譯機器,將所有的中文輸入翻譯成英文以及印尼文。格式如下

英文:

印尼文:

這省去了在每次對話中重複說明的麻煩,讓模型從一開始就以你喜歡的方式與你互動。

6.3 客製化專案

如果你發現自己經常重複使用某個複雜的提示(Prompt),那麼客製化專案(ChatGPT稱為Project、Gemini稱為Gem)就是為你準備的。它允許你將一個詳細的、包含背景、指令和範例的提示,打包成一個獨立的、可重複使用的「應用」。

我在閱讀大量金融資訊時就創建專案來幫我進行所有摘要、提煉洞見,最後產生行動建議。

設計提示背後的一些關鍵,就是提供「少樣本提示」(Few-shot Prompting)。在指令中,我不僅描述了任務,還提供了幾個完整的「輸入-輸出」範例。這極大地提升了模型理解任務的準確性,使其表現穩定而出色。但隨著模型越來越進步,有時候只要將需求簡要說明就可以了。

7. 從工具到夥伴的思維轉變

我們從一個簡單的問題開始:如何使用大型語言模型?現在,我們看到了一幅遠比「聊天」宏大得多的圖景。

一個真正的大型語言模型生態系,是一個以「壓縮的網際網路」為知識核心,以「Token」為媒介,並透過「思考能力」和「工具使用」不斷擴展其邊界,最終透過「多模態」和「個人化」深度融入我們感知和工作流程的複雜系統。

從標準的問答,到啟用思考模式解決難題;從利用網路搜尋獲取新知,到指揮進階資料分析工具繪製圖表;從上傳圖片辨識萬物,到開啟即時影像進行實景對話;從使用他人創建的通用模型,到打造專屬於你的客製化專案。這些進展,無疑也為工作及學習帶來了新的範式。

當我們不再將LLM視為一個等待提問的被動工具,而是將其看作一個可以被引導、被賦能、被訓練的認知夥伴時,我們才算真正釋放了它的潛力。

只是當我們的數位協作者不僅能言善道,更能思考、研究、計算、編碼和創造時:

在下一個十年,什麼才是我們不可替代的核心價值?

這或許是我們今天就應該開始思考的問題。

8. Appendix 知識地圖

LLM 核心概念圖

A New Paradigm

提問、互動到協作

駕馭大型語言模型 (LLM),將其從神奇的魔法黑盒,轉變為深度整合於個人與專業工作流程的認知夥伴 (Cognitive Partner)。

Conceptual Model

會說話的壓縮檔

與其將LLM視為全知的意識,不如理解為一個巨大的有損壓縮檔。其知識源自預訓練階段對整個網際網路的學習,並被壓縮存儲於數萬億個參數中,這也導致了其知識存在截斷點。

1TB Compressed Knowledge

人格的由來

透過後訓練階段 (RLHF),模型學習人類標註的對話範例,學會扮演一個樂於助人、安全無害的AI助理角色。

協作的本質

我們與模型的互動,是在一個稱為「上下文視窗」的工作記憶中,共同協作書寫一個不斷延長的 Token 序列。

Advanced Capability

思考

「思考模型」在給出答案前,會先在內部生成大量的思考步驟 (Chain of Thought),類似人類的「內心獨白」。這使其在處理需要多步推理的複雜任務 (如程式除錯) 時表現卓越。

// 案例:解決程式碼注入 Bug

User: “我的 Tampermonkey 腳本無法成功注入按鈕…”

Thinking Model: (思考近一分鐘後) “問題在於注入時機與DOM選擇器的精準度,應改為…”

有效溝通

  • 選擇合適問題:
    優先詢問普遍、常見、非時效性的內在知識。
  • 管理上下文視窗:
    切換主題時開啟新對話,保持工作記憶的簡潔與相關性。

Real-world Connection

工具

透過使用工具,LLM打破了自身知識庫的壁壘,連接到真實世界。

搜尋與執行

基本搜尋解決了「知識截斷」問題;程式碼執行則彌補了模型在精確計算上的短處,兩者都是連接現實數據的關鍵橋樑。

Query: “最新電影評分”
>>> print(12345 * 67890)
838102050

開發者整合

透過IDE整合 (如Cursor) 或UI生成 (如v0),開發者可以高層次指令快速建構應用,實現從需求到功能的無縫轉換。

建立井字遊戲 [App.js]

Model Selection

LLM 顧問團

面對重要問題時,可將同一提示拋給多個頂級模型,綜合比較其回答以獲得更全面的視角與更可靠的答案。

邏輯推理
知識廣度
程式能力
創意寫作
即時性

Beyond Text

多模態革命

LLM正在超越文字,能夠直接處理和生成語音、圖像、影像的Token。這使得互動更加自然、直觀,並開啟了全新的應用場景。

語音互動

從「語音轉文字」到端到端的「真」語音互動,實現低延遲對話。

圖像與影像

上傳圖片即可分析,或開啟相機進行即時場景對話。

Tailored For You

量身訂製

  • 記憶 (Memory): 自動儲存對話中的個人偏好與情境,讓模型越用越懂你。
  • 客製化應用 (GPTs): 將複雜提示、知識與工具打包成可重複使用的獨立應用。

From Tool to Partner

思維轉變

當我們將LLM視為可引導、賦能、訓練的認知夥伴 (Cognitive Partner) 時,才算真正釋放了它的潛力。

在下一個十年,什麼才是我們不可替代的核心價值?

The question we should start thinking about today.

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *