憑借卓越性能表現(xiàn)與先天開源優(yōu)勢,DeepSeek正迅速成為全球擴展大模型應用實踐的一大“圓心”。作為英特爾在GPU領域的重要布局,英特爾銳炫™顯卡既是游戲黨與視頻生產(chǎn)力工作者的新歡,也可用作計算卡,對DeepSeek提供加速支持,為企業(yè)用戶部署相關AI應用提供一條全新的高價性比實現(xiàn)路徑。具體來說,就是與英特爾®至強®可擴展處理器或英特爾®至強®W處理器搭配,以多卡配置的型態(tài)來運行和加速DeepSeek推理任務。
本文將在DeepSeek-R1- Distill-Qwen-32B推理場景下,以面向企業(yè)級應用且成本最低可控制在5-6萬元人民幣的4路英特爾銳炫™A770顯卡 + 至強®W處理器的解決方案為例,詳細闡述搭建硬件環(huán)境、配置驅(qū)動與軟件、優(yōu)化參數(shù)設置等步驟,手把手教大家部署和配置這一方案。
1、軟硬件安裝配置與初始化
1.1 硬件安裝配置
圖. 安裝4路英特爾銳炫™ A770顯卡的AI工作站
在BIOS設置中,將Re-Size BAR Support設為[Enabled]
1.2 軟件安裝配置
安裝操作系統(tǒng)04.1 LTS(鏡像文件可訪問https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso獲?。?。
~$ lspci | grep 56a0
18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg
~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list
~$ sudo apt update
~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic
~$ sudo apt install intel-i915-dkms
~$ sudo vim /etc/default/grub
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"
~$ sudo update-grub
~$ sudo reboot
~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo
~$ sudo gpasswd -a $(USER) render
~$ sudo newgrp render
~$ clinfo | grep "Driver Version"
Driver Version 23.43.27642.67
1.3 在英特爾® 至強® W平臺上設置
~$ sudo vim /etc/modprobe.d/blacklist.conf
~$ sudo update-initramfs -u
~$ sudo vim /etc/gdm3/custom.conf
]# sudo update-initramfs -u
~$ sudo reboot
1.4 監(jiān)控工具xpu-smi安裝
~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb --no-check-certificate
~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb
~$ xpu-smi discovery
2、大模型服務與聊天機器人演示
2.1 容器(Docker)安裝及服務設置
~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic
# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:
~$ sudo cpupower frequency-set -d 4.8GHz
~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400,2400
2.2 安裝并啟動vLLM服務
~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11
~$ sudo bash backend-ipex-docker.sh
~$ docker exec -it ipex-llm-b11 bash
~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh
2.3 使用Chatbox AI進行性能測試
User> ssh -L 8001:localhost:8001 worker@192.168.10.110
創(chuàng)新不止步:全新24GB銳炫™ 顯卡與滿血版DeepSeek R1方案正在路上
本部署指南雖然是圍繞4路英特爾銳炫™ A770顯卡的方案展開,且以DeepSeek-R1-Distill-Qwen-32B版為例,但我們的實踐探索并未局限于此。
一方面,該解決方案可對DeepSeek各個蒸餾版提供同樣靈活的支持。使用者可通過調(diào)整輸入模型名稱,以及設定并行使用的顯卡數(shù)量來進行調(diào)整(使用--tensor-parallel-size參數(shù)來控制)。
另一方面,多路英特爾銳炫™顯卡 + 英特爾®至強®可擴展處理器 /至強®W處理器方案的關鍵目標,還是鎖定在DeepSeek- R1-671B這一性能巔峰版本上,其配置與優(yōu)化方法很快就會與大家見面。預計其技術路徑會同時覆蓋基于KTransformer,能更充分發(fā)揮至強® 處理器內(nèi)置AI加速技術AMX潛能的方案,以及GPU配置密度更高的單機16路英特爾銳炫™ 顯卡的方案。
另一個值得期待的進展,就是專為生產(chǎn)力應用打造的新一代英特爾銳炫™顯卡 B580 24G顯存版本也正向我們走來,其4張卡即可提供96GB的顯存容量,意味著用戶可在單機中更輕松地部署更大參數(shù)量的DeepSeek服務(例如DeepSeek- R1-671B版本),進而能在實戰(zhàn)中以較低的成本和較為便捷的部署方式,開啟不縮水的DeepSeek服務。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。