下載比顯卡小的模型但是ollama卻全部都在主記憶體執行
下載比顯卡小的模型但是ollama卻全部都在主記憶體執行
AI提問:
我從 https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF 下載 DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf 模型實體檔案大小:5.12GB 我的設備有8G顯卡 使用 ollama 載入 為何會全部都在主記憶體執行 PS. 我測過 https://huggingface.co/unsloth/gemma-4-12b-it-GGUF 的 gemma-4-12b-it-UD-Q4_K_XL.gguf 可以正常利用顯卡工作
AI回復:
https://www.meta.ai/share/c/2pmfAepfUB?utm_source=meta_ai_web_share_copy_link&utm_medium=share&utm_campaign=ecto_share https://grok.com/share/bGVnYWN5LWNvcHk_e4d5ef4b-0168-47b6-b800-b04eba81deb9 https://www.perplexity.ai/search/wo-cong-https-huggingface-co-u-d6s6Ps3fTj6sLElTLv.KKg https://gemini.google.com/share/5132194a39e9 https://chatgpt.com/share/6a2783a7-3764-8324-8c65-0b976b8012ce
條列整理回復:
01.更新ollama
02.使用指令 強制指定使用GPU
03.使用指令 降低content大小
03.下載非UD模型
相關指令(命令)備份[自定義 modelfile.txt]:
FROM DeepSeek-R1-0528-Qwen3-8B-UD-Q4_K_XL.gguf PARAMETER num_gpu 999 # 盡量全 offload 到 GPU PARAMETER num_ctx 4096 # 或更小,省 KV cache PARAMETER num_batch 512 # 設為 批次處理 512 個 token # 掛載命令: ollama create my-deepseek -f modelfile.txt
One thought on “下載比顯卡小的模型但是ollama卻全部都在主記憶體執行”
LLM 本地運行
下載比顯卡小的大語言模型(GGUF) 但是ollama卻全部都在主記憶體執行