下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

2026-06-09 jash.liao Comments 1 comment

下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

AI提問:

我從 https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF 下載 DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf

模型實體檔案大小:5.12GB

我的設備有8G顯卡 使用 ollama 載入 為何會全部都在主記憶體執行

PS. 我測過 https://huggingface.co/unsloth/gemma-4-12b-it-GGUF 的 gemma-4-12b-it-UD-Q4_K_XL.gguf 可以正常利用顯卡工作

AI回復:

https://www.meta.ai/share/c/2pmfAepfUB?utm_source=meta_ai_web_share_copy_link&utm_medium=share&utm_campaign=ecto_share
https://grok.com/share/bGVnYWN5LWNvcHk_e4d5ef4b-0168-47b6-b800-b04eba81deb9

https://www.perplexity.ai/search/wo-cong-https-huggingface-co-u-d6s6Ps3fTj6sLElTLv.KKg
https://gemini.google.com/share/5132194a39e9

https://chatgpt.com/share/6a2783a7-3764-8324-8c65-0b976b8012ce

條列整理回復:

    01.更新ollama
    02.使用指令強制指定使用GPU
    03.使用指令降低content大小
    03.下載非UD模型

相關指令(命令)備份[自定義 modelfile.txt]:

FROM DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf

PARAMETER num_gpu 999     # 盡量全 offload 到 GPU
PARAMETER num_ctx 4096    # 或更小，省 KV cache
PARAMETER num_batch 512   # 設為 批次處理 512 個 token

# 掛載命令: ollama create my-deepseek -f modelfile.txt

jashliao部落格

四它 & 謀定而後動，知止而有得(5W2H1R) ~ 創意發想就是我的超能力

下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

2026-06-09 jash.liao Comments 1 comment

One thought on “下載比顯卡小的模型但是ollama卻全部都在主記憶體執行”

發表迴響取消回覆

One thought on “下載比顯卡小的模型但是ollama卻全部都在主記憶體執行”

發表迴響 取消回覆

發表迴響取消回覆