Ollama 运行模型

摘要： Ollama 提供了本地运行大语言模型的便捷方式。用户需先通过 ollama pull 下载模型（如 llama3、mistral 等），支持交互式终端（ollama run）或 API 调用（默认端口 11434）。管理模型可通过 ollama list/rm/ps 命令，性能优化包括 GPU 加速和参数调整。常见问题涉及内存不足或端口冲突，进阶功能支持自定义模型和批量处理。适用于对话、

m0_57545130

743人浏览 · 2025-10-21 09:50:10

m0_57545130 · 2025-10-21 09:50:10 发布

运行 Ollama 模型是在本地使用大语言模型（LLM）进行推理、对话或其他任务的核心步骤。以下是运行 Ollama 模型的简要指南，涵盖拉取模型、运行模型以及常见配置，适用于已安装 Ollama 的 Windows、macOS 或 Linux 系统。

1. 拉取模型

在运行模型之前，需要从 Ollama 模型库下载模型到本地。

命令：
```
ollama pull <model-name>
```
示例：拉取 LLaMA 3 模型（8B 参数版本）：
```
ollama pull llama3
```
常见模型：
- llama3：Meta 的 LLaMA 3，适合通用任务。
- mistral：Mistral AI 的高效模型。
- phi3：微软的轻量级模型，适合低配置设备。
- 查看更多模型：访问 Ollama 模型库或运行 ollama list。
注意：
- 模型文件较大（几 GB），确保网络稳定和磁盘空间充足。
- 可选择不同大小的模型（如 llama3:8b 或 llama3:70b），小模型更适合低配硬件。

2. 运行模型

Ollama 提供两种主要方式运行模型：交互式终端和 API 调用。

方式 1：交互式终端

命令：

ollama run <model-name>

示例：

ollama run llama3

效果：
- 进入交互模式，直接输入提示（prompt）与模型对话。
- 示例输入：What is the capital of France? 模型会返回 The capital of France is Paris.
退出：输入 /exit 或按 Ctrl+D。

方式 2：通过 API 运行

Ollama 提供 REST API，适合集成到应用或脚本中。

默认地址：http://localhost:11434

示例（使用 curl）：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Write a short poem about the moon."
}'

响应：模型会返回生成的文本，格式为 JSON。

编程集成：使用 Python、Node.js 等调用 API。例如 Python 代码：

import requests
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': 'Hello, world!'
})
print(response.json())

3. 管理运行中的模型

查看已下载模型：
```
ollama list
```
删除模型（释放空间）：
```
ollama rm <model-name>
```
查看运行状态：
```
ollama ps
```
显示当前运行的模型实例。

4. 优化运行性能

硬件要求：
- 小模型（如 phi3）：4-8GB 内存即可。
- 大模型（如 llama3:70b）：建议 16GB+ 内存和 GPU。
GPU 支持：
- 确保安装 NVIDIA CUDA 驱动（Linux/Windows）或 Metal（macOS）。
- Ollama 自动检测并使用 GPU 加速（若可用）。
参数调整：
- 使用 --verbose 查看运行详情。
- 自定义模型参数（如温度、top-k）：通过 API 指定，例如：
```
{
  "model": "llama3",
  "prompt": "Tell a story",
  "temperature": 0.7,
  "top_p": 0.9
}
```
多模型运行：
- Ollama 支持同时运行多个模型，但需足够内存和 CPU/GPU 资源。

5. 常见问题

模型未找到：确保已通过 ollama pull 下载模型。
运行缓慢：尝试更小模型或启用 GPU 加速。
端口占用：Ollama 默认使用 11434 端口，若冲突，可通过环境变量修改：
```
export OLLAMA_HOST=127.0.0.1:11435
```
内存不足：关闭其他程序或选择更小模型。

6. 进阶使用

自定义模型：[通过 Modelfile 创建自定义模型，定义提示、参数等：
```
ollama create mymodel -f Modelfile
```
批量处理：编写脚本循环调用 API，处理大量任务。
嵌入生成：使用 /api/embeddings 端点生成文本嵌入，适用于搜索或分类任务。

示例场景

对话：运行 ollama run mistral 与模型聊天。
代码生成：输入 Write a Python script to sort a list 获取代码。
API 集成：将 Ollama 嵌入 Web 应用，实时生成内容。

如需特定模型运行示例、API 集成代码或故障排除帮助，请告诉我！

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插