DeepSeek 大模型本地部署指南（Ollama+Chatbox）

一、安装 Ollama

Windows 系统

访问 Ollama 官网下载安装包（约 100MB）
双击安装，默认路径为 C:\Program Files\Ollama，自动添加环境变量

验证安装：


ollama --version  # 输出版本号即成功

Linux 系统


curl -fsSL https://ollama.com/install.sh | sh  # 自动安装并启动服务
systemctl status ollama  # 检查服务状态

二、下载 DeepSeek 模型

7B 模型（流畅运行，推荐）


ollama pull deepseek-r1:7b

33B 模型（需量化，显存占用约 18GB）


ollama pull deepseek-coder:33b --quantize q4_0  # INT4 量化
# 拉取 q4 量化版本（推荐）
ollama pull deepseek-coder:33b-instruct-q4_K_M

1.5B 模型（低配设备适用）


ollama pull deepseek-r1:1.5b

验证下载


ollama list  # 显示已下载模型

三、启动模型并测试

命令行交互


ollama run deepseek-r1:7b  # 输入问题测试（如"写一首诗"）

API 调用（集成到项目）


import requests
response = requests.post(
    "http://localhost:11434/api/generate",
    json={"model": "deepseek-r1:7b", "prompt": "你好"}
)
print(response.json())

四、启动 Chatbox 并连接 Ollama

步骤1：下载 Chatbox

访问 Chatbox GitHub 仓库或 Chatbox 官网，下载对应系统的版本。

步骤2：配置 Ollama 连接

打开 Chatbox，进入设置界面；
在“模型提供方”中选择“Ollama”；
输入 Ollama 的 API 地址（默认为 http://localhost:11434）。

步骤3：选择模型并开始对话

在模型列表中选择已下载的 deepseek-r1:7b；
在输入框中输入问题（如“解释量子计算的基本原理”），点击发送。

五、进阶使用技巧

1. 自定义模型参数


ollama run deepseek-r1:7b --temperature 0.7 --top-p 0.9

--temperature：控制输出随机性（0-1，值越高越创意）；
--top-p：限制输出词汇的累积概率（0-1，值越低越保守）。

2. 批量处理任务

在 Chatbox 设置中启用“批量模式”；
将问题以换行符分隔的文本粘贴至输入框；
点击发送，系统将逐条回答并显示进度。

3. 模型微调（可选）

准备训练数据（格式为 JSONL，每行包含 prompt 和 response）；

执行微调命令：


ollama fine-tune deepseek-r1:7b --data training_data.jsonl

4. 进阶配置

多 GPU 支持

Linux：export CUDA_VISIBLE_DEVICES=0,1
Windows 命令提示符：set CUDA_VISIBLE_DEVICES=0,1

其他图形化界面

安装 Open WebUI，配置 API 地址为 http://localhost:11434

六、常见问题与解决方案

1. 模型下载失败

原因：网络不稳定或 Ollama 服务器繁忙；

解决：

使用代理工具加速下载；
尝试更换模型版本（如从 7b 换为 3b）；

手动下载模型文件（Linux 示例）：


wget https://huggingface.co/deepseek-ai/deepseek-r1-7b/resolve/main/ggml-model-q4_0.bin
ollama create deepseek-r1 -f Modelfile  # 自定义模型指向本地文件

2. 内存不足错误

现象：终端显示 out of memory；
解决：
1. 关闭其他占用内存的程序；
2. 降低模型参数（如换用 3b 版本）；
3. 在 Linux/macOS 下启用交换空间（swap）。

3. Chatbox 无法连接 Ollama

检查点：
1. 确认 Ollama 服务已启动（终端输入 ollama serve）；
2. 检查防火墙设置，允许 11434 端口的入站连接；
3. 重启 Chatbox 和 Ollama。

七、验证部署成功

1. 健康检查


curl http://localhost:11434  # 返回 {"version": "x.x.x", "features": ["models"]} 即正常

2. 性能测试

7B 模型响应延迟应低于 20ms；
33B 模型（量化后）响应延迟约 50ms；
测试长文本处理：输入 64K 上下文（如《三体》章节），检查摘要生成质量。

八、适用场景与扩展建议

1. 典型应用场景

教育领域：部署于学校实验室，供学生练习 AI 对话；
中小企业：快速搭建客服系统，降低外包成本；
个人开发者：测试模型性能，为项目提供原型支持。

2. 扩展方向

多模态支持：结合 Stable Diffusion 等工具，实现图文交互；
移动端适配：通过 Termux（Android）或 iSH（iOS）在手机上运行 Ollama；
企业级部署：使用 Docker 容器化 Ollama，实现集群化管理。

九、总结与行动建议

下载 Ollama 和 Chatbox，完成基础安装；
尝试运行 deepseek-r1:3b 或 deepseek-r1:7b 模型，体验基础对话功能；
根据需求调整参数或扩展功能（如批量处理、API 集成）。

本地化 AI 的未来，正从这一步开始！

注：文档部分内容由 AI 生成，实际操作以官方最新指南为准。

（注：文档部分内容可能由 AI 生成）

本地部署 AI 大模型

DeepSeek 大模型本地部署指南（Ollama+Chatbox）

一、安装 Ollama

Windows 系统

Linux 系统

二、下载 DeepSeek 模型

7B 模型（流畅运行，推荐）

33B 模型（需量化，显存占用约 18GB）

1.5B 模型（低配设备适用）

验证下载

三、启动模型并测试

命令行交互

API 调用（集成到项目）

四、启动 Chatbox 并连接 Ollama

步骤1：下载 Chatbox

步骤2：配置 Ollama 连接

步骤3：选择模型并开始对话

五、进阶使用技巧

1. 自定义模型参数

2. 批量处理任务

3. 模型微调（可选）

4. 进阶配置

多 GPU 支持

其他图形化界面

六、常见问题与解决方案

1. 模型下载失败

2. 内存不足错误

3. Chatbox 无法连接 Ollama

七、验证部署成功

1. 健康检查

2. 性能测试

八、适用场景与扩展建议

1. 典型应用场景

2. 扩展方向

九、总结与行动建议