一、硬件选购：平衡性能与成本的策略

大模型推理对硬件的核心需求集中在计算资源、内存带宽和存储吞吐量三方面。在预算有限的情况下，需优先满足计算单元的性能需求。

1.1 计算单元选择

GPU是当前大模型推理的主流选择，关键指标包括：

CUDA核心数：直接影响并行计算能力，建议选择至少4096个CUDA核心的型号
显存容量：7B参数模型推荐16GB显存，13B参数需24GB以上
显存带宽：高于400GB/s的带宽可减少数据传输瓶颈

对于中小企业，可考虑行业常见技术方案中的中端显卡，其性价比优势明显。若处理文本类任务，部分型号的Tensor Core加速效果显著。

1.2 内存与存储配置

系统内存：建议配置64GB DDR4 ECC内存，确保多任务处理稳定性
存储方案：采用NVMe SSD（至少1TB）作为系统盘，搭配大容量HDD存储数据集
PCIe通道分配：确保GPU和NVMe SSD独占PCIe x16通道，避免带宽争抢

1.3 电源与散热设计

电源功率：按GPU TDP的150%预留功率，例如双卡配置需1000W以上电源
散热方案：风冷适用于单卡配置，多卡场景建议采用分体式水冷
机箱选择：优先选择支持E-ATX主板和8槽PCIe扩展的塔式机箱

二、Ubuntu双系统安装：规避常见陷阱

2.1 磁盘分区策略

推荐采用GPT分区表，划分以下分区：

/dev/sda1  512M  EFI系统分区（FAT32）
/dev/sda2  100G  Ubuntu根分区（EXT4）
/dev/sda3  200G  Windows系统分区（NTFS）
/dev/sda4  剩余空间  共享数据分区（NTFS）

关键提示：安装前需在BIOS中禁用Fast Boot和Secure Boot，避免引导冲突。

2.2 安装介质制作

使用Rufus工具制作Ubuntu启动盘时，注意：

选择”GPT分区方案”和”UEFI模式”
文件系统选择”FAT32”
添加持久化存储（可选）

2.3 安装过程要点

在安装类型界面选择”其他选项”进行手动分区
为EFI分区设置/boot/efi挂载点
安装GRUB引导加载器时选择/dev/sda设备
安装完成后通过sudo update-grub更新引导菜单

2.4 双系统启动管理

推荐使用rEFInd引导管理器，配置步骤：

sudo apt install refind
sudo refind-install

修改/boot/efi/EFI/refind/refind.conf文件，添加Windows启动项：

menuentry "Windows Boot Manager" {
    loader /EFI/Microsoft/Boot/bootmgfw.efi
    icon \EFI\refind\icons\os_win.png
}

三、深度学习环境配置：从驱动到框架

3.1 NVIDIA驱动安装

禁用Nouveau驱动：

echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u

下载官方驱动（如535.154.02版本）

安装依赖包：

sudo apt install build-essential dkms libglvnd-dev

执行安装：

chmod +x NVIDIA-Linux-x86_64-535.154.02.run
sudo ./NVIDIA-Linux-x86_64-535.154.02.run

3.2 CUDA与cuDNN配置

CUDA安装建议选择runfile方式：

wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.154.02_linux.run
sudo sh cuda_12.2.2_535.154.02_linux.run --silent --toolkit --override

配置环境变量：

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

cuDNN安装需匹配CUDA版本，解压后执行：

sudo cp cuda/include/*.h /usr/local/cuda/include
sudo cp cuda/lib64/* /usr/local/cuda/lib64

3.3 PyTorch环境搭建

推荐使用conda创建独立环境：

conda create -n llm python=3.10
conda activate llm
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

验证安装：

import torch
print(torch.cuda.is_available())  # 应输出True
print(torch.cuda.get_device_name(0))  # 显示GPU型号

3.4 推理框架部署

以vLLM为例的安装流程：

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

运行示例推理：

from vllm import LLM, SamplingParams
llm = LLM(model="facebook/opt-125m")
sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
outputs = llm.generate(["Hello, world!"], sampling_params)
print(outputs[0].outputs[0].text)

四、性能优化实战

4.1 内存管理技巧

使用nvidia-smi -q -d MEMORY监控显存使用
启用TensorRT加速时设置workspace_size=1<<30（1GB）
对LLaMA类模型采用pagesize=2048的KV缓存优化

4.2 批处理策略

# 动态批处理示例
from vllm.engine.arg_utils import AsyncEngineArgs
from vllm.async_llm_engine import AsyncLLMEngine
args = AsyncEngineArgs(
    model="facebook/opt-125m",
    tokenizer="facebook/opt-125m",
    max_batch_size=16,
    max_num_batched_tokens=4096
)
engine = AsyncLLMEngine.from_engine_args(args)

4.3 监控体系搭建

推荐Prometheus+Grafana监控方案：

# 安装Node Exporter
sudo apt install prometheus-node-exporter
# 安装NVIDIA DCGM Exporter
sudo apt install data-center-gpu-manager
# 配置Prometheus采集目标
vi /etc/prometheus/prometheus.yml

五、故障排查指南

5.1 常见驱动问题

错误43：检查Secure Boot是否禁用，尝试sudo dkms build -m nvidia -v 535.154.02
CUDA初始化失败：验证ldconfig -p | grep cuda输出是否包含正确路径
cuDNN版本不匹配：使用nvcc --version和cat /usr/local/cuda/include/cudnn_version.h核对版本

5.2 推理服务异常

OOM错误：通过nvidia-smi -i 0 --query-gpu=memory.total,memory.used --format=csv监控显存
延迟波动：使用perf stat -e cycles,instructions,cache-misses python inference.py分析CPU瓶颈
模型加载失败：检查dmesg | grep nvidia是否有硬件错误日志

通过以上系统化的硬件选型、双系统安装和环境配置方案，开发者可高效构建稳定的大模型推理平台。实际部署时建议先在单卡环境验证，再逐步扩展至多卡集群，同时建立完善的监控体系确保服务可靠性。

从零搭建大模型推理服务器：硬件、系统与环境全流程指南