Hermes 主模型与辅助模型配置指南
概述
Hermes 的模型体系分为主模型和辅助模型两大类:
- 主模型:负责核心对话、复杂推理、任务规划——就是你跟 Hermes 聊天时真正在"思考"的那个模型
- 辅助模型:负责边角任务——图片分析、网页摘要、命令审批、上下文压缩等辅助性工作
一句话:主模型是老板,辅助模型是秘书。老板做决策,秘书打下手。
1. 配置文件位置
所有模型配置都在 ~/.hermes/config.yaml 里,属于同一层级的顶级配置项:
# 主模型
model:
provider: "minimax-cn"
default: "MiniMax-M2.7-highspeed"
base_url: "https://api.minimaxi.com/anthropic"
# 辅助模型
auxiliary:
vision:
provider: "auto"
model: ""
timeout: 120
web_extract:
provider: "auto"
timeout: 360
# ... 其他辅助任务
2. 当前配置(夏总的环境)
# 主模型
model:
provider: minimax-cn
default: MiniMax-M2.7-highspeed
base_url: https://api.minimaxi.com/anthropic
# 辅助模型(全部 auto,默认用 Gemini Flash)
auxiliary:
vision:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 120
download_timeout: 30
web_extract:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 360
compression:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 120
session_search:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
max_concurrency: 3
skills_hub:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
approval:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
mcp:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
flush_memories:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
title_generation:
provider: auto
model: ''
base_url: ''
api_key: ''
timeout: 30
当前状态:主模型用 MiniMax-M2.7-highspeed,辅助模型全部是 provider: auto(自动选择,默认 Gemini Flash),开箱即用,无需额外配置。
3. 主模型配置详解
基础配置
model:
provider: "minimax-cn" # 服务商:minimax-cn / openrouter / anthropic 等
default: "MiniMax-M2.7-highspeed" # 具体模型名称
base_url: "https://api.minimaxi.com/anthropic" # API 端点(OpenAI兼容格式)
支持的主模型 Provider
| Provider | 说明 |
|---|---|
minimax / minimax-cn |
MiniMax(国内) |
openrouter |
OpenRouter(支持 Claude/GPT/Gemini 等) |
anthropic |
Anthropic 官方(Claude) |
deepseek |
DeepSeek |
openai |
OpenAI 官方 |
ollama-cloud |
Ollama 云端 |
bedrock |
AWS Bedrock(Claude/Nova/Llama) |
custom |
自定义 OpenAI 兼容端点 |
4. 辅助模型配置详解
4.1 辅助任务类型
| 任务 | 说明 | 默认超时 |
|---|---|---|
vision |
图片分析(截图发给AI看) | 120s |
web_extract |
网页内容提取和摘要 | 360s |
approval |
危险命令风险审查 | 30s |
compression |
上下文压缩(长对话摘要) | 120s |
session_search |
历史会话匹配后摘要 | 30s |
skills_hub |
技能匹配和搜索 | 30s |
mcp |
MCP 工具分发 | 30s |
flush_memories |
记忆持久化摘要 | 30s |
title_generation |
会话标题生成 | 30s |
4.2 每个任务的通用配置项
auxiliary:
<任务名>:
provider: "auto" # 用什么服务商
model: "" # 具体模型(留空用默认值)
base_url: "" # 自定义端点(优先级高于provider)
api_key: "" # base_url对应的密钥
timeout: 120 # API调用超时(秒)
extra_body: {} # 透传Provider特定参数
4.3 Provider 选项
| Provider | 说明 | 依赖 |
|---|---|---|
"auto" |
自动选择(默认,推荐) | 无 |
"openrouter" |
走 OpenRouter | OPENROUTER_API_KEY |
"nous" |
走 Nous Portal | hermes auth |
"codex" |
走 Codex(ChatGPT) | hermes model → Codex |
"main" |
复用主模型的 API 配置 | 主模型已配置 |
⚠️
"main"只能用于auxiliary、compression、fallback_model内部,不能用于顶层model.provider。
5. 实用配置案例
案例1:辅助模型也用 MiniMax(最省钱)
model:
provider: "minimax-cn"
default: "MiniMax-M2.7-highspeed"
auxiliary:
vision:
provider: "main"
model: "abab6.5s-chat"
web_extract:
provider: "main"
model: "abab6.5s-chat"
compression:
provider: "main"
model: "abab6.5s-chat"
适用场景:已订阅 MiniMax API,想把辅助任务也走同一个服务,省钱。
案例2:本地跑 Ollama(完全免费)
auxiliary:
vision:
base_url: "http://localhost:11434/v1"
api_key: "ollama"
model: "qwen2.5-vl:latest"
web_extract:
base_url: "http://localhost:11434/v1"
api_key: "ollama"
model: "qwen2.5:latest"
compression:
base_url: "http://localhost:11434/v1"
api_key: "ollama"
model: "qwen2.5:latest"
适用场景:有本地 GPU,想零成本跑辅助任务。需要先安装 Ollama 并下载模型:
ollama pull qwen2.5-vl:latest
ollama pull qwen2.5:latest
案例3:主模型用 OpenRouter,辅助用便宜的 Gemini Flash
model:
provider: "openrouter"
default: "anthropic/claude-sonnet-4-6"
# OPENROUTER_API_KEY 环境变量
auxiliary:
vision:
provider: "openrouter"
model: "google/gemini-2.0-flash"
timeout: 120
compression:
provider: "openrouter"
model: "google/gemini-2.0-flash"
timeout: 120
web_extract:
provider: "openrouter"
model: "google/gemini-2.0-flash"
timeout: 360
适用场景:主模型用 Claude,辅助任务用便宜的 Gemini Flash 节省成本。
案例4:主模型用 DeepSeek,辅助用本地模型
model:
provider: "deepseek"
default: "deepseek-chat"
auxiliary:
vision:
base_url: "http://localhost:1234/v1"
api_key: "local-key"
model: "qwen2.5-vl"
timeout: 300 # 本地模型慢,调高超时
download_timeout: 60
web_extract:
base_url: "http://localhost:1234/v1"
api_key: "local-key"
model: "qwen2.5"
timeout: 300
compression:
base_url: "http://localhost:1234/v1"
api_key: "local-key"
model: "qwen2.5"
timeout: 300
案例5:调整并发和超时
auxiliary:
session_search:
provider: "openrouter"
model: "google/gemini-2.0-flash"
timeout: 60
max_concurrency: 2 # 限制同时跑2个,防止429限流
extra_body:
enable_thinking: false # 关掉思考,省token
6. 完整配置模板
# ~/.hermes/config.yaml
# ==================== 主模型 ====================
model:
provider: "minimax-cn"
default: "MiniMax-M2.7-highspeed"
base_url: "https://api.minimaxi.com/anthropic"
# ==================== 辅助模型 ====================
auxiliary:
# 图片分析
vision:
provider: "auto" # auto / openrouter / main / 自定义provider
model: "" # 留空用默认值(Gemini Flash)
base_url: ""
api_key: ""
timeout: 120
download_timeout: 30
# 网页摘要
web_extract:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 360
# 上下文压缩
compression:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 120
# 危险命令审查
approval:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
# 历史会话搜索摘要
session_search:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
max_concurrency: 3
extra_body: {}
# 技能匹配
skills_hub:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
# MCP工具分发
mcp:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
# 记忆持久化
flush_memories:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
# 会话标题生成
title_generation:
provider: "auto"
model: ""
base_url: ""
api_key: ""
timeout: 30
7. 环境变量方式(替代 config.yaml)
除了 config.yaml,也可以通过环境变量配置辅助模型:
# 在 ~/.hermes/.env 中设置
AUXILIARY_VISION_MODEL=openai/gpt-4o
AUXILIARY_WEB_EXTRACT_MODEL=google/gemini-2.0-flash
AUXILIARY_COMPRESSION_MODEL=google/gemini-2.0-flash
8. 配置建议总结
| 场景 | 主模型 | 辅助模型配置 |
|---|---|---|
| 不想折腾 | MiniMax(当前) | provider: auto(什么不用改) |
| 已订阅 MiniMax | MiniMax | provider: main + MiniMax 模型 |
| 有本地 GPU | MiniMax / OpenRouter | 本地 Ollama(免费) |
| 主模型用 Claude | OpenRouter | provider: openrouter + Gemini Flash |
| 追求最低成本 | DeepSeek / Ollama | 本地 Ollama |