下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

下載比顯卡小的模型但是ollama卻全部都在主記憶體執行


AI提問:

我從 https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF 下載 DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf

模型實體檔案大小:5.12GB

我的設備有8G顯卡 使用 ollama 載入 為何會全部都在主記憶體執行

PS. 我測過 https://huggingface.co/unsloth/gemma-4-12b-it-GGUF 的 gemma-4-12b-it-UD-Q4_K_XL.gguf 可以正常利用顯卡工作


AI回復:

https://www.meta.ai/share/c/2pmfAepfUB?utm_source=meta_ai_web_share_copy_link&utm_medium=share&utm_campaign=ecto_share
https://grok.com/share/bGVnYWN5LWNvcHk_e4d5ef4b-0168-47b6-b800-b04eba81deb9

https://www.perplexity.ai/search/wo-cong-https-huggingface-co-u-d6s6Ps3fTj6sLElTLv.KKg
https://gemini.google.com/share/5132194a39e9

https://chatgpt.com/share/6a2783a7-3764-8324-8c65-0b976b8012ce


條列整理回復:

    01.更新ollama
    02.使用指令 強制指定使用GPU
    03.使用指令 降低content大小
    03.下載非UD模型


相關指令(命令)備份[自定義 modelfile.txt]:

FROM DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf

PARAMETER num_gpu 999     # 盡量全 offload 到 GPU
PARAMETER num_ctx 4096    # 或更小,省 KV cache
PARAMETER num_batch 512   # 設為 批次處理 512 個 token

# 掛載命令: ollama create my-deepseek -f modelfile.txt

One thought on “下載比顯卡小的模型但是ollama卻全部都在主記憶體執行

  1. LLM 本地運行
    下載比顯卡小的大語言模型(GGUF) 但是ollama卻全部都在主記憶體執行

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *