Qwen3 是阿里巴巴通义千问团队推出的最新一代开源大语言模型,凭借出色的性能、多语言支持和灵活的部署方式,受到了广泛关注。本教程将详细介绍如何在本地服务器上部署 Qwen3 模型,并提供多种部署方案供不同需求的用户选择。
# 安装 Python 3.8+
sudo apt update
sudo apt install -y python3 python3-pip python3-venv
# 创建虚拟环境
python3 -m venv qwen3_env
source qwen3_env/bin/activate
# 升级 pip
pip install --upgrade pip
# Linux/Mac
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 访问 https://ollama.com/download 下载安装包
# 拉取 7B 版本
ollama pull qwen3:7b
# 拉取 14B 版本
ollama pull qwen3:14b
# 命令行交互
ollama run qwen3:7b
# 启动 API 服务
ollama serve
pip install vllm
pip install huggingface_hub
huggingface-cli download Qwen/Qwen3-7B-Instruct --local-dir ./qwen3-7b
python -m vllm.entrypoints.api_server \
--model ./qwen3-7b \
--host 0.0.0.0 \
--port 8000
pip install transformers torch accelerate sentencepiece
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Qwen/Qwen3-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto",
trust_remote_code=True
)
messages = [{"role": "user", "content": "你好"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
pip install -r requirements.txt
python server.py --model qwen3-7b --listen
浏览器打开 http://localhost:7860 即可使用图形界面。
pip install bitsandbytes
使用 4-bit 量化可减少 75% 显存占用。
pip install flash-attn --no-build-isolation
vLLM 启动时添加参数:
--gpu-memory-utilization 0.95 --max-num-seqs 256
本教程介绍了四种 Qwen3 模型的部署方案:
选择建议:
希望本教程能帮助你成功部署 Qwen3 模型!