Ollama 全面使用教程:本地+云端高效运行大模型
Ollama 全面使用教程:本地+云端高效运行大模型
Ollama 是一款开源、轻量且高效的大模型本地运行工具,支持 Windows、macOS、Linux 全平台,能够一键部署 Llama 3、Qwen2.5、DeepSeek、Gemma 4 等上百款主流大语言模型,无需复杂配置,即可实现本地对话、代码生成等功能,同时还支持云端模型调用,解决低配设备无法运行大参数量模型的痛点。本文将聚焦 Ollama 运行大模型的核心场景,从安装到实战,手把手教你玩转 Ollama,覆盖新手必备的全流程操作。
一、前置准备:了解 Ollama 核心特性与硬件要求
1.1 核心特性
Ollama 之所以成为本地运行大模型的首选工具,核心优势在于简洁高效、兼容性强,具体特性如下:
一键部署:一行命令即可完成模型安装与启动,无需手动配置依赖环境;
跨平台支持:完美适配 Windows、macOS、Linux,操作逻辑统一,降低学习成本;
模型丰富:内置上百款开源模型,涵盖通用对话、代码生成、专业领域模型,同时支持自定义模型;
API 兼容:自带 OpenAI 格式 API,现有 AI 项目可直接迁移适配;
云端拓展:支持调用 Ollama 自带 Cloud 模型,无需本地显存,轻松运行超大参数量模型;
安全可靠:支持 API 密钥认证,可限制本地访问,避免未授权调用。
1.2 硬件要求
Ollama 运行模型的流畅度,主要取决于设备的显存和内存,不同规模模型的硬件要求如下(推荐配置),可根据自身设备选择合适的模型:
| 模型规模 | 显存要求 | 内存要求 | 推荐场景 |
|---|---|---|---|
| 3B(轻量型) | 3GB+ | 8GB+ | 低配设备、快速测试、简单对话 |
| 7B(推荐型) | 4-6GB | 16GB+ | 日常开发、个人使用、代码辅助 |
| 13B(进阶级) | 10-12GB | 32GB+ | 专业应用、团队协作、复杂任务处理 |
| 30B+(专业型) | 24GB+ | 64GB+ | 企业部署、深度研究、复杂场景推理 |
注:若设备显存不足,可选择 Ollama Cloud 模型,无需依赖本地硬件资源。
二、Ollama 安装教程(Windows + macOS)
Ollama 安装流程简洁,Windows 和 macOS 均支持一键安装,以下是详细步骤,确保安装后能正常启动服务。
2.1 Windows 系统安装(Win10/11 适用)
步骤 1:下载安装包
访问 Ollama 官方网站(https://ollama.com/download),滑动至页面下方,找到 Windows 版本,点击下载 OllamaSetup.exe 安装包(约 1.8GB)。
步骤 2:运行安装
双击下载好的 OllamaSetup.exe,按照安装向导提示操作,务必勾选「Add to PATH」选项(将 Ollama 加入系统环境变量,方便后续命令行调用),然后点击「Install」完成安装。
步骤 3:验证安装与启动服务
安装完成后,打开 PowerShell 或 CMD 命令行工具,输入以下命令验证安装是否成功:
ollama --version若输出类似「ollama version is 0.12.0」的版本信息,说明安装成功。
Ollama 安装后会自动启动服务,可在系统托盘查看 Ollama 图标;若未自动启动,在命令行输入以下命令手动启动服务:
ollama serve注意:启动服务的终端窗口需保持打开,后续操作需新开一个终端窗口执行。
2.2 macOS 系统安装(Monterey 及以上适用)
macOS 提供两种安装方式,推荐新手使用官网下载方式,便捷高效;开发者可选择 Homebrew 安装。
方式 1:官网下载安装(推荐)
访问 Ollama 官方网站(https://ollama.com/download),点击「Download for macOS」下载安装包;
下载完成后解压,将
Ollama.app拖入「应用程序」文件夹;双击打开
Ollama.app,菜单栏会出现 Ollama 图标,说明服务已成功启动;打开「终端」,输入
ollama --version,验证安装成功。
方式 2:Homebrew 安装(开发者推荐)
若已安装 Homebrew,直接在终端输入以下命令一键安装:
brew install ollama安装完成后,输入以下命令启动服务:
ollama serve若需后台运行服务(不占用终端窗口),输入:
ollama serve2.3 国内加速配置(必做)
由于 Ollama 官方模型库在国内访问较慢,建议配置国内镜像加速,避免下载模型时卡顿或失败。
Windows(PowerShell)
# 临时配置(当前终端有效)
$env:OLLAMA_MODEL_SERVER="https://mirror.ollama.com"
# 永久配置(全局有效)
# 1. 右键「此电脑」→「属性」→「高级系统设置」→「环境变量」
# 2. 在「用户变量」中新建:
# 变量名:OLLAMA_MODEL_SERVER
# 变量值:https://mirror.ollama.commacOS / Linux
# 临时配置(当前终端有效)
export OLLAMA_MODEL_SERVER=https://mirror.ollama.com
# 永久配置(全局有效)
nano ~/.bashrc # 或 ~/.zshrc(根据自己的终端配置选择)
# 在文件中添加:export OLLAMA_MODEL_SERVER=https://mirror.ollama.com
# 保存后重新加载配置:
source ~/.bashrc # 或 source ~/.zshrc三、安装并运行开源模型
Ollama 内置上百款开源模型,支持通过命令行一键拉取(下载)和运行,操作简单,无需额外配置。以下是常用开源模型的安装与运行方法,涵盖通用对话、代码生成等场景。
3.1 核心操作逻辑
Ollama 操作模型的核心命令的是 pull(拉取模型)和 run(运行模型),基本语法如下:
# 拉取模型(格式:ollama pull 模型名称:版本,版本可省略,默认最新版)
ollama pull 模型名称[:版本]
# 运行模型(拉取成功后,直接运行,自动进入交互模式)
ollama run 模型名称[:版本]3.2 常用开源模型安装与运行示例
示例 1:通用对话模型(Qwen2.5 7B,推荐新手)
Qwen2.5 是阿里开源的通用大模型,响应速度快,适配中文场景,7B 版本适合大多数个人设备:
# 拉取 Qwen2.5 7B 模型
ollama pull qwen2.5:7b
# 运行模型,进入交互对话模式
ollama run qwen2.5:7b运行成功后,输入问题即可与模型对话,例如输入「介绍一下 Ollama」,模型会自动生成回复;输入 /exit 或按下Ctrl+D 可退出交互模式。
示例 2:代码生成模型(CodeLlama 7B)
CodeLlama 是 Meta 开源的代码生成模型,支持多种编程语言,适合开发者辅助编码:
# 拉取 CodeLlama 7B 模型
ollama pull codellama:7b
# 运行模型,专注代码生成
ollama run codellama:7b进入交互模式后,可输入代码需求,例如「用 Python 写一个快速排序算法」,模型会生成完整代码并附带注释。
示例 3:进阶模型(Gemma 4,适合中高配设备)
Gemma 4 是 Google 开源的大模型,性能强劲,支持多场景任务,可根据设备显存选择版本:
# 拉取 Gemma 4 轻量版(3B,适合显存 3GB+ 设备)
ollama pull gemma4:3b
# 拉取 Gemma 4 标准版(9.6GB,适合显存 16GB+ 设备)
ollama pull gemma4:e4b
# 运行 Gemma 4 模型
ollama run gemma4:e4b3.3 模型管理技巧
查看本地已安装模型:
ollama list(或ollama ls),会显示模型名称、版本和占用空间;删除不需要的模型:
ollama rm 模型名称[:版本],例如ollama rm qwen2.5:7b;查看模型详细信息:
ollama show 模型名称[:版本],包括模型参数量、存储路径等;模型存储路径:Windows 默认路径为
C:\\Users\\你的用户名\\.ollama\\models,可通过环境变量OLLAMA_MODELS修改。
四、运行 Claude Code、OpenClaw 等工具
Ollama 可与 Claude Code、OpenClaw 等 AI 工具串联使用,无需依赖在线 API 和 Token,全部在本地运行,不产生任何费用,适合开发者高效办公。以下是详细步骤(以 Windows 为例,macOS 操作逻辑一致)。
4.1 前置准备
确保 Ollama 已安装并启动服务;
安装 Node.js(强烈建议使用 v22 版本,v24 版本可能导致 OpenClaw 无法正常运行),下载地址:https://nodejs.org/en/download/;
安装合适的模型(推荐 Gemma 4 系列,性能更适配代码生成和工具调用)。
4.2 运行 Claude Code
Claude Code 是一款专注于代码生成、调试的工具,通过 Ollama 本地模型驱动,无需订阅付费方案:
打开 Ollama 应用(Windows 系统托盘点击 Ollama 图标),左侧菜单选择「Launch」;
在应用列表中找到「Claude Code」,复制其启动指令;
以管理员身份打开 PowerShell(或终端),粘贴启动指令并执行;
启动成功后,选择已安装的模型(如 Gemma 4:e4b),确认后即可进入 Claude Code 界面,开始代码生成、调试等操作。
4.3 运行 OpenClaw
OpenClaw 是一款多功能 AI 工具,支持对话、代码、文档生成等,与 Ollama 串联后可实现本地无 Token 运行:
访问 OpenClaw 官方网站(https://openclaw.ai/),复制对应系统的安装指令;
以管理员身份打开 PowerShell(macOS 打开终端),粘贴安装指令并执行,按提示完成安装;
打开 Ollama 应用,左侧「Launch」中找到「OpenClaw」,复制启动指令;
在 PowerShell 中粘贴启动指令,选择已安装的模型(如 Gemma 4:26b),确认后复制生成的 URL;
将 URL 粘贴到浏览器打开,即可使用 OpenClaw,界面会显示当前使用的模型,说明串联成功。
注:macOS 用户可直接通过终端执行 OpenClaw 安装指令,步骤与 Windows 一致,无需额外配置。
五、选择并使用 Ollama 自带 Cloud 模型
如果你的设备显存不足,无法运行 13B 及以上规模的模型,可使用 Ollama 自带的 Cloud 模型——无需本地硬件资源,通过云端算力运行超大参数量模型,使用方式与本地模型完全一致,且仅占用少量本地存储空间(几 KB)。
5.1 前置条件
需要在 Ollama 官方网站(https://ollama.com/)注册一个账户,用于认证云端模型访问权限。
5.2 查找并运行 Cloud 模型
- 打开终端(Windows PowerShell / macOS 终端),输入以下命令登录 Ollama 账户(按提示输入官网注册的邮箱和密码):
ollama signin- 登录成功后,即可查找 Cloud 模型——所有带
:cloud后缀的模型均为云端模型,例如:
minimax-m2.7:cloud(轻量云端模型,适合快速对话);
DeepSeek-V3.1:cloud(超大参数量模型,适合复杂推理);
Qwen3-Coder:cloud(云端代码模型,适合专业编码)。
- 直接运行 Cloud 模型,语法与本地模型一致:
# 运行 minimax-m2.7 云端模型
ollama run minimax-m2.7:cloud运行后,模型会通过云端算力响应,无需本地显存支持,交互方式与本地模型完全相同,输入 /exit 即可退出。
5.3 Cloud 模型优势与注意事项
优势:无需本地硬件配置,可运行 671B 等超大参数量模型,响应速度快,不占用本地存储空间;
注意事项:需要联网使用,登录状态有效期有限,若提示未授权,重新执行
ollama signin即可。
六、Ollama 常用命令与进阶使用方式
掌握 Ollama 常用命令,可大幅提升操作效率,以下分类整理核心命令,涵盖模型管理、服务控制、进阶配置等场景,新手可直接复制使用。
6.1 核心常用命令(必记)
| 命令 | 功能说明 | 示例 |
|---|---|---|
| ollama --version | 查看 Ollama 版本 | ollama --version |
| ollama serve | 启动 Ollama 服务 | ollama serve(后台运行:ollama serve &) |
| ollama pull 模型名 | 拉取(下载)模型 | ollama pull qwen2.5:7b |
| ollama run 模型名 | 运行模型,进入交互模式 | ollama run gemma4:e4b |
| ollama list | 查看本地已安装模型 | ollama list(或 ollama ls) |
| ollama rm 模型名 | 删除本地模型 | ollama rm codellama:7b |
| ollama show 模型名 | 查看模型详细信息 | ollama show qwen2.5:7b |
| ollama stop | 停止当前运行的模型和服务 | ollama stop |
| ollama help | 查看所有命令帮助 | ollama help(或 ollama --help) |
| ollama signin | 登录 Ollama 账户(用于 Cloud 模型) | ollama signin |
6.2 进阶使用方式
方式 1:通过 API 调用模型(开发者必备)
Ollama 自带 OpenAI 格式 API,可通过 HTTP 请求调用模型,适配各类开发项目,以 Python 为例:
import requests
# API 调用地址(默认本地服务端口 11434)
url = "http://localhost:11434/api/generate"
# 请求参数
payload = {
"model": "qwen2.5:7b", # 模型名称
"prompt": "用 Python 写一个简单的爬虫程序", # 提问内容
"stream": False # 是否流式输出,False 表示一次性返回结果
}
# 发送请求并获取响应
response = requests.post(url, json=payload)
result = response.json()
# 打印模型回复
print(result["response"])方式 2:自定义模型(进阶需求)
可通过编写 Modelfile 配置文件,自定义模型参数(如量化配置、上下文长度),创建属于自己的模型:
- 创建 Modelfile 文件,内容如下(以基于 Llama3 自定义为例):
FROM llama3:7b # 基础模型
# 自定义上下文长度(默认 4096)
PARAMETER context_length 8192
# 自定义模型描述
SYSTEM "我是一个专注于代码生成的AI助手,擅长多种编程语言。"- 执行以下命令,创建自定义模型(模型名自定义,如 my-code-model):
ollama create my-code-model -f ./Modelfile- 运行自定义模型:
ollama run my-code-model方式 3:Docker 部署 Ollama(macOS / Linux 开发者)
若需隔离运行环境,可通过 Docker 部署 Ollama,以 macOS 为例:
# 1. 创建本地模型存储目录
mkdir -p ~/ollama/ollama-data
# 2. 启动 Ollama Docker 容器(后台运行,开机自启)
docker run -d \
--name ollama \
--platform linux/arm64 \
--restart unless-stopped \
-p 11434:11434 \
-v ~/ollama/ollama-data:/root/.ollama \
-e OLLAMA_HOST=0.0.0.0 \
ollama/ollama:latest
# 3. 进入容器,拉取并运行模型
docker exec -it ollama bash
ollama pull qwen2.5:7b
ollama run qwen2.5:7b七、常见问题排查
新手使用 Ollama 时,可能会遇到服务启动失败、模型下载卡顿、无法运行等问题,以下是高频问题及解决方案:
问题 1:执行命令提示「ollama: command not found」?
解决方案:Windows 安装时未勾选「Add to PATH」,重新安装并勾选该选项;macOS 可执行source ~/.bashrc重新加载环境变量。问题 2:启动服务提示「Error: ollama server not responding」?
解决方案:确认已执行ollama serve启动服务;检查端口 11434 是否被占用(Windows:netstat -ano \| findstr :11434;macOS:lsof -i :11434),关闭占用端口的程序后重新启动服务。问题 3:模型下载速度慢、下载失败?
解决方案:配置国内镜像加速(参考本文 2.3 节),更换网络或重新执行ollama pull命令。问题 4:运行模型时提示显存不足?
解决方案:更换更小规模的模型(如 3B、7B 版本),或使用 Ollama Cloud 模型(参考本文第五章)。问题 5:OpenClaw 无法启动?
解决方案:确认 Node.js 版本为 v22,卸载 v24 版本后重新安装;检查 Ollama 服务是否正常启动。
八、总结
Ollama 作为一款轻量高效的大模型运行工具,极大降低了本地部署大模型的门槛——无论是新手想要体验 AI 对话,还是开发者需要本地调试代码、对接项目,都能通过 Ollama 快速实现。本文涵盖了 Windows/macOS 安装、开源模型部署、Claude Code/OpenClaw 运行、Cloud 模型使用及常用命令,基本覆盖了绝大多数用户的核心需求。
后续可根据自身需求,探索自定义模型、API 对接等进阶功能,充分发挥 Ollama 的灵活性和高效性,让大模型真正服务于日常学习和工作。如果遇到其他问题,可通过 ollama help 查看命令帮助,或访问 Ollama 官方文档获取更多支持。
