快科技2月9日訊息,DeepSeek火得一塌糊塗,國內外的相關企業都在積極適配支援,而對於AI大模型來說,使用GPU執行無疑是最高效的,比如AMD,無論是Instinct加速卡還是Radeon遊戲卡,都已經適配到位。
你只需要任意一塊AMD RX 7000系列顯示卡,就可以在本地體驗DeepSeek。
AMD Radeon遊戲卡本地部署DeepSeek非常簡單,只需開啟AMD官網(中英文均可),搜尋"15.1.1",進入第一個結果,下載AMD Adrenalin 25.1.1測試版驅動,安裝並重啟。
直接下載地址:
https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.
然後開啟LM Studio官網網站的銳龍專欄(https://lmstudio.ai/ryzenai),並下載LM Studio for Ryzen AI安裝包,安裝並執行。
啟動之後,點選右下角設定(可選中文語言),找到並開啟"Use LM Studios Hugging Face"這個選項。
回到主介面,在左側選單欄點選搜尋圖示,輸入"DeepSeek R1",就可以看到已經訓練好的各種DeepSeek模型。
至於如何選擇,可以參考如下的AMD官方推薦列表,比如旗艦級的RX 7900 XTX可以支援到32B引數,主流的RX 7600則僅支援8G模型。
然後下載合適的模型,在主介面上方選擇已下載的模型,然後調高"GPU Offload"的數值,不同選項的具體含義可自行搜尋或者直接詢問DeepSeek。
模型載入完畢後,就可以盡情地在本地體驗DeepSeek了。
與此同時,AMD Instinct GPU加速卡也已經部署整合DeepSeek V3模型,並最佳化了SGLang效能,支援完整的671B引數,開發者可以藉助AMD ROCm平臺快速、高效地開發AI應用。
1、啟動Docker容器
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host
--device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined
--group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm630
2、開始使用
(1)、使用CLI登陸進入Hugging Face。
huggingface-cli login
(2)、啟動SGLang Server,在本地部署DeepSeekV3 FP8模型。
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code
(3)、伺服器啟動後,開啟新的終端,傳送請求。
curl http://localhost:30000/generate
-H "Content-Type: application/json"
"text": "Once upon a time,",
"sampling_params": {
"max_new_tokens": 16,
"temperature": 0
3、基準測試
export HSA_NO_SCRATCH_RECLAIM=1
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
Accuracy: 0.952
Invalid: 0.000
另外,如果需要BF16精度,可以自行轉換:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights