本地玩转大语言模型：Ollama 超详细指南

东锋1.3

20771人浏览 · 2025-02-02 00:00:00

东锋1.3 · 2025-02-02 00:00:00 发布

在 AI 浪潮下，大语言模型（LLMs）展现出令人惊叹的能力。但很多人在使用时会受限于云端调用的成本和隐私问题。今天就给大家介绍一个开源神器 ——Ollama，它能让你在本地轻松运行、部署和交互 LLMs，无论是开发、研究还是日常体验都超实用。

一、Ollama 是什么

Ollama 是一款开源工具，它简化了在本地计算机上运行、部署和交互大型语言模型的流程。支持 LLaMA 2、Mistral、Gemma 等多种模型，为开发者和研究者提供了便捷的本地实验和 AI 应用开发环境。

二、安装 Ollama

（一）支持平台及安装方式

macOS：有两种安装方式，既可以直接下载安装包，也能借助 Homebrew 快速安装，在终端输入brew install ollama即可。
Linux：使用一键安装脚本就能搞定，在终端运行curl -fsSL https://ollama.ai/install.sh | sh。
Windows（预览版）：需要从 Ollama 官网下载安装程序进行安装。

（二）启动服务

安装完成后，Ollama 会在后台自动运行，默认端口是 11434。通过下面的命令可以管理服务：

ollama serve：启动服务。
ollama list：查看已下载的模型。

三、基础使用

（一）下载并运行模型

运行ollama run llama2就能下载并启动 LLaMA 2 模型。首次运行时会自动下载模型（需联网），模型会存储在~/.ollama/models目录下。进入交互式界面后，输入文本就能和模型对话，按Ctrl+D可以退出。

（二）常用命令

ollama pull mistral：只下载模型但不运行。
ollama list：查看本地已有的模型列表。
ollama rm llama2：删除指定的模型，比如这里的 llama2 模型。

四、通过 API 调用

Ollama 提供了 REST API，方便编程调用，下面是两个常见的 API 调用示例：

（一）生成文本

通过curl命令调用/api/generate接口，像这样：

curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "为什么天空是蓝色的？"}'

（二）对话模式

调用/api/chat接口实现对话功能，示例如下：

curl http://localhost:11434/api/chat -d '{ "model": "llama2", "messages": [{ "role": "user", "content": "你好！" }]}'

五、自定义模型

如果想让模型按照自己的想法 “说话”，可以使用Modelfile定义模型参数来创建自定义模型。

（一）创建 Modelfile

比如下面这个简单的示例，基于 llama2 模型，让模型变成一个幽默的助手：

FROM llama2
SYSTEM """你是一个幽默的助手，回答时尽量加入笑话。"""
PARAMETER temperature 0.7

（二）构建并运行

使用以下命令构建并运行自定义模型：

ollama create my-model -f Modelfile
ollama run my-model

六、高级功能

（一）多模型并行

可以同时运行不同的模型，并且通过调整num_ctx参数来控制上下文长度，满足不同场景需求。

（二）GPU 加速

在 Linux 和 macOS 系统中，支持 Metal 或 CUDA 加速，不过需要先安装对应的驱动，这样模型运行速度会大幅提升。

（三）Docker 部署

使用 Docker 部署 Ollama 非常方便，运行下面的命令就能启动一个 Ollama 容器：

docker run -d -p 11434:11434 --gpus=all ollama/ollama

七、注意事项

（一）硬件要求

7B 参数模型至少需要 8GB 内存，13B 模型则需要 16GB 内存。如果有 GPU，能显著提升运行速度。

（二）网络问题

模型下载慢时，可以配置镜像源或者使用代理来加速下载。

（三）存储路径

模型默认存储在~/.ollama目录下，如果想修改存储路径，可以通过设置环境变量OLLAMA_MODELS来实现。

八、学习资源

官网文档：library，这里有详细的使用说明和技术文档。
社区示例：社区里有很多预训练模型示例，像codellama用于代码生成，phi轻量级模型等，可以去探索学习。

此外，如果大家在部署过程中需要 GPU 服务器，这里也给大家盘点了几家性价比不错的服务器：

阿里云 2 核 2G3M 服务器低至 99 元，新老用户都能购买，地址：云小站_专享特惠_云产品推荐-阿里云。
京东云轻量云主机 2 核 4G 5M，3 年仅需 788 元，地址：京东云。
百度云服务器优惠力度大，SEO 收录快，地址：百度智能云-推广上云福利-大使邀新专场。
腾讯云 2 核 2G4M，1 年仅 99 元，地址：618年中盛惠。
华为云 Flexus X 实例 - 2 核 4G5M，1 年 188 元，地址：限时活动_云服务器_云主机_企业上云-华为云。

希望这篇文章能帮助大家快速上手 Ollama，开启本地大语言模型的探索之旅！如果在使用过程中有任何问题，欢迎在评论区留言交流。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插