在 AI 浪潮下,大语言模型(LLMs)展现出令人惊叹的能力。但很多人在使用时会受限于云端调用的成本和隐私问题。今天就给大家介绍一个开源神器 ——Ollama,它能让你在本地轻松运行、部署和交互 LLMs,无论是开发、研究还是日常体验都超实用。

 

一、Ollama 是什么

Ollama 是一款开源工具,它简化了在本地计算机上运行、部署和交互大型语言模型的流程。支持 LLaMA 2、Mistral、Gemma 等多种模型,为开发者和研究者提供了便捷的本地实验和 AI 应用开发环境。

 

二、安装 Ollama

(一)支持平台及安装方式

  1. macOS:有两种安装方式,既可以直接下载安装包,也能借助 Homebrew 快速安装,在终端输入brew install ollama即可。
  2. Linux:使用一键安装脚本就能搞定,在终端运行curl -fsSL https://ollama.ai/install.sh | sh
  3. Windows(预览版):需要从 Ollama 官网下载安装程序进行安装。

 

(二)启动服务

安装完成后,Ollama 会在后台自动运行,默认端口是 11434。通过下面的命令可以管理服务:

  • ollama serve:启动服务。
  • ollama list:查看已下载的模型。

 

三、基础使用

(一)下载并运行模型

运行ollama run llama2就能下载并启动 LLaMA 2 模型。首次运行时会自动下载模型(需联网),模型会存储在~/.ollama/models目录下。进入交互式界面后,输入文本就能和模型对话,按Ctrl+D可以退出。

 

(二)常用命令

  • ollama pull mistral:只下载模型但不运行。
  • ollama list:查看本地已有的模型列表。
  • ollama rm llama2:删除指定的模型,比如这里的 llama2 模型。

 

四、通过 API 调用

Ollama 提供了 REST API,方便编程调用,下面是两个常见的 API 调用示例:

(一)生成文本

通过curl命令调用/api/generate接口,像这样:

curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "为什么天空是蓝色的?"}'

 

(二)对话模式

调用/api/chat接口实现对话功能,示例如下:

curl http://localhost:11434/api/chat -d '{ "model": "llama2", "messages": [{ "role": "user", "content": "你好!" }]}'

 

五、自定义模型

如果想让模型按照自己的想法 “说话”,可以使用Modelfile定义模型参数来创建自定义模型。

(一)创建 Modelfile

比如下面这个简单的示例,基于 llama2 模型,让模型变成一个幽默的助手:

FROM llama2
SYSTEM """你是一个幽默的助手,回答时尽量加入笑话。"""
PARAMETER temperature 0.7

 

(二)构建并运行

使用以下命令构建并运行自定义模型:

ollama create my-model -f Modelfile
ollama run my-model

 

六、高级功能

(一)多模型并行

可以同时运行不同的模型,并且通过调整num_ctx参数来控制上下文长度,满足不同场景需求。

(二)GPU 加速

在 Linux 和 macOS 系统中,支持 Metal 或 CUDA 加速,不过需要先安装对应的驱动,这样模型运行速度会大幅提升。

(三)Docker 部署

使用 Docker 部署 Ollama 非常方便,运行下面的命令就能启动一个 Ollama 容器:

docker run -d -p 11434:11434 --gpus=all ollama/ollama

 

七、注意事项

(一)硬件要求

7B 参数模型至少需要 8GB 内存,13B 模型则需要 16GB 内存。如果有 GPU,能显著提升运行速度。

(二)网络问题

模型下载慢时,可以配置镜像源或者使用代理来加速下载。

(三)存储路径

模型默认存储在~/.ollama目录下,如果想修改存储路径,可以通过设置环境变量OLLAMA_MODELS来实现。

 

八、学习资源

  • 官网文档library,这里有详细的使用说明和技术文档。
  • 社区示例:社区里有很多预训练模型示例,像codellama用于代码生成,phi轻量级模型等,可以去探索学习。

此外,如果大家在部署过程中需要 GPU 服务器,这里也给大家盘点了几家性价比不错的服务器:

  1. 阿里云 2 核 2G3M 服务器低至 99 元,新老用户都能购买,地址:云小站_专享特惠_云产品推荐-阿里云
  2. 京东云轻量云主机 2 核 4G 5M,3 年仅需 788 元,地址:京东云
  3. 百度云服务器优惠力度大,SEO 收录快,地址:百度智能云-推广上云福利-大使邀新专场
  4. 腾讯云 2 核 2G4M,1 年仅 99 元,地址:618年中盛惠
  5. 华为云 Flexus X 实例 - 2 核 4G5M,1 年 188 元,地址:限时活动_云服务器_云主机_企业上云-华为云

希望这篇文章能帮助大家快速上手 Ollama,开启本地大语言模型的探索之旅!如果在使用过程中有任何问题,欢迎在评论区留言交流。

 

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐