Hermes 主模型与辅助模型配置指南

概述

Hermes 的模型体系分为主模型和辅助模型两大类：

主模型：负责核心对话、复杂推理、任务规划——就是你跟 Hermes 聊天时真正在"思考"的那个模型
辅助模型：负责边角任务——图片分析、网页摘要、命令审批、上下文压缩等辅助性工作

一句话：主模型是老板，辅助模型是秘书。老板做决策，秘书打下手。

1. 配置文件位置

所有模型配置都在 ~/.hermes/config.yaml 里，属于同一层级的顶级配置项：

# 主模型
model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"
  base_url: "https://api.minimaxi.com/anthropic"

# 辅助模型
auxiliary:
  vision:
    provider: "auto"
    model: ""
    timeout: 120
  web_extract:
    provider: "auto"
    timeout: 360
  # ... 其他辅助任务

2. 当前配置（夏总的环境）

# 主模型
model:
  provider: minimax-cn
  default: MiniMax-M2.7-highspeed
  base_url: https://api.minimaxi.com/anthropic

# 辅助模型（全部 auto，默认用 Gemini Flash）
auxiliary:
  vision:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 120
    download_timeout: 30
  web_extract:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 360
  compression:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 120
  session_search:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
    max_concurrency: 3
  skills_hub:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  approval:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  mcp:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  flush_memories:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  title_generation:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30

当前状态：主模型用 MiniMax-M2.7-highspeed，辅助模型全部是 provider: auto（自动选择，默认 Gemini Flash），开箱即用，无需额外配置。

3. 主模型配置详解

基础配置

model:
  provider: "minimax-cn"           # 服务商：minimax-cn / openrouter / anthropic 等
  default: "MiniMax-M2.7-highspeed"  # 具体模型名称
  base_url: "https://api.minimaxi.com/anthropic"  # API 端点（OpenAI兼容格式）

支持的主模型 Provider

Provider	说明
`minimax` / `minimax-cn`	MiniMax（国内）
`openrouter`	OpenRouter（支持 Claude/GPT/Gemini 等）
`anthropic`	Anthropic 官方（Claude）
`deepseek`	DeepSeek
`openai`	OpenAI 官方
`ollama-cloud`	Ollama 云端
`bedrock`	AWS Bedrock（Claude/Nova/Llama）
`custom`	自定义 OpenAI 兼容端点

4. 辅助模型配置详解

4.1 辅助任务类型

任务	说明	默认超时
`vision`	图片分析（截图发给AI看）	120s
`web_extract`	网页内容提取和摘要	360s
`approval`	危险命令风险审查	30s
`compression`	上下文压缩（长对话摘要）	120s
`session_search`	历史会话匹配后摘要	30s
`skills_hub`	技能匹配和搜索	30s
`mcp`	MCP 工具分发	30s
`flush_memories`	记忆持久化摘要	30s
`title_generation`	会话标题生成	30s

4.2 每个任务的通用配置项

auxiliary:
  <任务名>:
    provider: "auto"      # 用什么服务商
    model: ""            # 具体模型（留空用默认值）
    base_url: ""         # 自定义端点（优先级高于provider）
    api_key: ""          # base_url对应的密钥
    timeout: 120         # API调用超时（秒）
    extra_body: {}        # 透传Provider特定参数

4.3 Provider 选项

Provider	说明	依赖
`"auto"`	自动选择（默认，推荐）	无
`"openrouter"`	走 OpenRouter	`OPENROUTER_API_KEY`
`"nous"`	走 Nous Portal	`hermes auth`
`"codex"`	走 Codex（ChatGPT）	`hermes model` → Codex
`"main"`	复用主模型的 API 配置	主模型已配置

⚠️ "main" 只能用于 auxiliary、compression、fallback_model 内部，不能用于顶层 model.provider。

5. 实用配置案例

案例1：辅助模型也用 MiniMax（最省钱）

model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"

auxiliary:
  vision:
    provider: "main"
    model: "abab6.5s-chat"
  web_extract:
    provider: "main"
    model: "abab6.5s-chat"
  compression:
    provider: "main"
    model: "abab6.5s-chat"

适用场景：已订阅 MiniMax API，想把辅助任务也走同一个服务，省钱。

案例2：本地跑 Ollama（完全免费）

auxiliary:
  vision:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5-vl:latest"
  web_extract:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5:latest"
  compression:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5:latest"

适用场景：有本地 GPU，想零成本跑辅助任务。需要先安装 Ollama 并下载模型：

ollama pull qwen2.5-vl:latest
ollama pull qwen2.5:latest

案例3：主模型用 OpenRouter，辅助用便宜的 Gemini Flash

model:
  provider: "openrouter"
  default: "anthropic/claude-sonnet-4-6"
  # OPENROUTER_API_KEY 环境变量

auxiliary:
  vision:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 120
  compression:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 120
  web_extract:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 360

适用场景：主模型用 Claude，辅助任务用便宜的 Gemini Flash 节省成本。

案例4：主模型用 DeepSeek，辅助用本地模型

model:
  provider: "deepseek"
  default: "deepseek-chat"

auxiliary:
  vision:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5-vl"
    timeout: 300            # 本地模型慢，调高超时
    download_timeout: 60
  web_extract:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5"
    timeout: 300
  compression:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5"
    timeout: 300

案例5：调整并发和超时

auxiliary:
  session_search:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 60
    max_concurrency: 2              # 限制同时跑2个，防止429限流
    extra_body:
      enable_thinking: false         # 关掉思考，省token

6. 完整配置模板

# ~/.hermes/config.yaml

# ==================== 主模型 ====================
model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"
  base_url: "https://api.minimaxi.com/anthropic"

# ==================== 辅助模型 ====================
auxiliary:
  # 图片分析
  vision:
    provider: "auto"         # auto / openrouter / main / 自定义provider
    model: ""                # 留空用默认值（Gemini Flash）
    base_url: ""
    api_key: ""
    timeout: 120
    download_timeout: 30

  # 网页摘要
  web_extract:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 360

  # 上下文压缩
  compression:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 120

  # 危险命令审查
  approval:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 历史会话搜索摘要
  session_search:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30
    max_concurrency: 3
    extra_body: {}

  # 技能匹配
  skills_hub:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # MCP工具分发
  mcp:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 记忆持久化
  flush_memories:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 会话标题生成
  title_generation:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

7. 环境变量方式（替代 config.yaml）

除了 config.yaml，也可以通过环境变量配置辅助模型：

# 在 ~/.hermes/.env 中设置
AUXILIARY_VISION_MODEL=openai/gpt-4o
AUXILIARY_WEB_EXTRACT_MODEL=google/gemini-2.0-flash
AUXILIARY_COMPRESSION_MODEL=google/gemini-2.0-flash

8. 配置建议总结

场景	主模型	辅助模型配置
不想折腾	MiniMax（当前）	`provider: auto`（什么不用改）
已订阅 MiniMax	MiniMax	`provider: main` + MiniMax 模型
有本地 GPU	MiniMax / OpenRouter	本地 Ollama（免费）
主模型用 Claude	OpenRouter	`provider: openrouter` + Gemini Flash
追求最低成本	DeepSeek / Ollama	本地 Ollama