在 Apple Silicon Mac 跑本地大型語言模型(Ollama 入門)
技 iLab學校技術長進階技術・終端機・系統維修・依官方資訊整理這支國外創作者的英文教學完整示範安裝流程;想照繁中步驟做,往下看 iLab 整理。
開始前
門市裡常有人問:「我可不可以讓 AI 完全跑在自己電腦上,不要把資料丟到雲端?」答案是可以,而且如果你手上是 M 系列的 Mac,這件事比想像中容易得多。
關鍵在 Apple Silicon 的統一記憶體。一般電腦 CPU 跟顯卡各有各的記憶體,要搬資料;M 系列是 CPU、GPU 共用同一塊大記憶體,加上神經網路引擎幫忙做推論,跑本機模型又快又省電。實際用下來,一台 16GB 的 MacBook Air 就能順順地跑 7B、8B 等級的開源模型,這在 Windows 筆電上往往得配一張獨立顯卡才辦得到。
開始之前,你需要一台 Apple Silicon 的 Mac,加上一點點終端機的基礎就夠了。如果連終端機都還沒碰過,建議先看 Mac 終端機入門,後面會輕鬆很多。
裝起來,然後跟它講第一句話
最省事的工具叫 Ollama,免費、開源。安裝有兩條路:直接去 ollama.com 下載 macOS 版,雙擊安裝;或者你習慣用 Homebrew,一行就搞定。
# 方法一:到 ollama.com 下載安裝
# 方法二:用 Homebrew
brew install ollama
# 下載並啟動一個模型(第一次會自動抓)
ollama run llama3.2
ollama run llama3.2 這行第一次跑會先把模型下載下來,所以要等一下,看你網路快慢。下載完它就直接進入對話狀態,你在終端機打字、它回你,全程在本機,不連網也照樣回應。模型檔已經在硬碟裡,之後再叫它就是秒開。
幾個你遲早會用到的指令
跑久了硬碟裡會堆好幾個模型,記得這幾個就夠管理了:
ollama list # 看已下載的模型
ollama run qwen2.5 # 換一個模型跑
ollama rm llama3.2 # 移除模型釋放空間
想換口味很簡單,把 llama3.2 換成別的模型名就好,比如阿里巴巴的 qwen2.5 中文表現就不錯。模型佔空間,動輒幾 GB 起跳,覺得某個用不上就 ollama rm 砍掉,乾脆。
記憶體該配多少,老實說
這是門市最常被追問的一題,我直接給判斷:3B 的小模型 8GB 也跑得動,但別期待太聰明;想要堪用,7B 到 8B 配 16GB 是甜蜜點;要碰更大的模型,32GB 以上才不會卡。簡單講,記憶體越大、塞得進去的模型越聰明,這條規則幾乎沒有例外。所以選機的時候,記憶體比晶片型號更值得加錢,這跟一般人想的不太一樣。
順帶一提,Ollama 裝好後會在本機開一個 API(預設 11434 埠),其他程式可以呼叫它。這聽起來很技術,但它正是把一台 Mac 變成 本地 AI 伺服器 的起點,有興趣可以往那條路延伸。
不想碰終端機?換 LM Studio
如果上面那些指令讓你發毛,完全可以略過 Ollama,改裝 LM Studio。它是視窗化的圖形介面,下載模型、聊天、調參數全用點的,對沒寫過程式的人友善很多,背後一樣是本機離線運算。功能差不多,差別只在你想看到黑底終端機,還是一個正常的 App 視窗。
說到底,本機跑 LLM 最大的好處是隱私跟零 API 費用,特別適合處理公司機敏資料、或量大到雲端費用會痛的情境。但前提是機器跟得上。不確定自己的 Mac 夠不夠力、或正打算換一台來玩 AI,到 選機小幫手 講一下用途和預算,或直接來 iLab 門市,我們幫你當場試跑看看再決定。
操作步驟
跟著做,點一下打勾常見問題
需要多大記憶體?
小模型(3B 參數)8GB 可跑;7~8B 建議 16GB;更大的模型要 32GB 以上。記憶體越大、能跑的模型越聰明。
跑本機模型要付費嗎?
Ollama 與開源模型本身免費,只用你的硬體。不上雲,也不會產生 API 費用,適合大量或機敏用途。