前置条件

vLLM镜像拉取

  • 拉取 vLLM 0.9.0版本:
docker pull crpi-33mr80vehc50lqh8.cn-chengdu.personal.cr.aliyuncs.com/yunxinai/vllm-openai:v0.9.0
  • 可以看到,速度还是非常快的
    在这里插入图片描述

模型下载

模型部署

yaml文件编写

services:
  vllm:
    container_name: vllm
    restart: no
    image: crpi-33mr80vehc50lqh8.cn-chengdu.personal.cr.aliyuncs.com/yunxinai/vllm-openai:v0.9.0
    ipc: host
    volumes:
      - /data/vllm:/models
    command: ["--model", "/models/Qwen3-30B-A3B",  "--served-model-name", "Qwen3_30B_A3B",  "--gpu-memory-utilization", "0.75",  "--tensor-parallel-size", "2",  "--uvicorn-log-level", "debug",  "--api-key", "EHmTL656TaTBlCnSQbpqbhG6NXDWItpo"]
    ports:
      - 30041:8000
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

日志查看

  • 执行查看日志命令:docker-compose logs vllm -f --tail=50
    在这里插入图片描述

模型验证

curl -X POST "http://127.0.0.1:30041/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer EHmTL656TaTBlCnSQbpqbhG6NXDWItpo" \
  -d '{
        "model": "Qwen3_30B_A3B",
        "messages": [
            {
                "role": "user",
                "content": "一大爷带着二大爷上三大爷家里说四大爷被五大爷骗到六大爷家偷七大爷放在柜子里九大爷,谁是小偷"
            },
            {
                "role": "system",
                "content": "请帮我仔细回答问题"
            }
        ],
        "temperature": 0.5,
        "stream": false
    }'

在这里插入图片描述

关注微信公众号「云馨AI」,回复「微信」,
无论你是AI爱好者还是初学者,这里都能为你打开AI世界的大门!加入我们,与志同道合的朋友一起探索AI的无限可能,共同拥抱智能未来!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐