x

Hermes 主模型与辅助模型配置指南

概述

Hermes 的模型体系分为主模型辅助模型两大类:

  • 主模型:负责核心对话、复杂推理、任务规划——就是你跟 Hermes 聊天时真正在"思考"的那个模型
  • 辅助模型:负责边角任务——图片分析、网页摘要、命令审批、上下文压缩等辅助性工作

一句话:主模型是老板,辅助模型是秘书。老板做决策,秘书打下手。


1. 配置文件位置

所有模型配置都在 ~/.hermes/config.yaml 里,属于同一层级的顶级配置项:

# 主模型
model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"
  base_url: "https://api.minimaxi.com/anthropic"

# 辅助模型
auxiliary:
  vision:
    provider: "auto"
    model: ""
    timeout: 120
  web_extract:
    provider: "auto"
    timeout: 360
  # ... 其他辅助任务

2. 当前配置(夏总的环境)

# 主模型
model:
  provider: minimax-cn
  default: MiniMax-M2.7-highspeed
  base_url: https://api.minimaxi.com/anthropic

# 辅助模型(全部 auto,默认用 Gemini Flash)
auxiliary:
  vision:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 120
    download_timeout: 30
  web_extract:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 360
  compression:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 120
  session_search:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
    max_concurrency: 3
  skills_hub:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  approval:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  mcp:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  flush_memories:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30
  title_generation:
    provider: auto
    model: ''
    base_url: ''
    api_key: ''
    timeout: 30

当前状态:主模型用 MiniMax-M2.7-highspeed,辅助模型全部是 provider: auto(自动选择,默认 Gemini Flash),开箱即用,无需额外配置


3. 主模型配置详解

基础配置

model:
  provider: "minimax-cn"           # 服务商:minimax-cn / openrouter / anthropic 等
  default: "MiniMax-M2.7-highspeed"  # 具体模型名称
  base_url: "https://api.minimaxi.com/anthropic"  # API 端点(OpenAI兼容格式)

支持的主模型 Provider

Provider 说明
minimax / minimax-cn MiniMax(国内)
openrouter OpenRouter(支持 Claude/GPT/Gemini 等)
anthropic Anthropic 官方(Claude)
deepseek DeepSeek
openai OpenAI 官方
ollama-cloud Ollama 云端
bedrock AWS Bedrock(Claude/Nova/Llama)
custom 自定义 OpenAI 兼容端点

4. 辅助模型配置详解

4.1 辅助任务类型

任务 说明 默认超时
vision 图片分析(截图发给AI看) 120s
web_extract 网页内容提取和摘要 360s
approval 危险命令风险审查 30s
compression 上下文压缩(长对话摘要) 120s
session_search 历史会话匹配后摘要 30s
skills_hub 技能匹配和搜索 30s
mcp MCP 工具分发 30s
flush_memories 记忆持久化摘要 30s
title_generation 会话标题生成 30s

4.2 每个任务的通用配置项

auxiliary:
  <任务名>:
    provider: "auto"      # 用什么服务商
    model: ""            # 具体模型(留空用默认值)
    base_url: ""         # 自定义端点(优先级高于provider)
    api_key: ""          # base_url对应的密钥
    timeout: 120         # API调用超时(秒)
    extra_body: {}        # 透传Provider特定参数

4.3 Provider 选项

Provider 说明 依赖
"auto" 自动选择(默认,推荐)
"openrouter" 走 OpenRouter OPENROUTER_API_KEY
"nous" 走 Nous Portal hermes auth
"codex" 走 Codex(ChatGPT) hermes model → Codex
"main" 复用主模型的 API 配置 主模型已配置

⚠️ "main" 只能用于 auxiliarycompressionfallback_model 内部,不能用于顶层 model.provider


5. 实用配置案例

案例1:辅助模型也用 MiniMax(最省钱)

model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"

auxiliary:
  vision:
    provider: "main"
    model: "abab6.5s-chat"
  web_extract:
    provider: "main"
    model: "abab6.5s-chat"
  compression:
    provider: "main"
    model: "abab6.5s-chat"

适用场景:已订阅 MiniMax API,想把辅助任务也走同一个服务,省钱。


案例2:本地跑 Ollama(完全免费)

auxiliary:
  vision:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5-vl:latest"
  web_extract:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5:latest"
  compression:
    base_url: "http://localhost:11434/v1"
    api_key: "ollama"
    model: "qwen2.5:latest"

适用场景:有本地 GPU,想零成本跑辅助任务。需要先安装 Ollama 并下载模型:

ollama pull qwen2.5-vl:latest
ollama pull qwen2.5:latest

案例3:主模型用 OpenRouter,辅助用便宜的 Gemini Flash

model:
  provider: "openrouter"
  default: "anthropic/claude-sonnet-4-6"
  # OPENROUTER_API_KEY 环境变量

auxiliary:
  vision:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 120
  compression:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 120
  web_extract:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 360

适用场景:主模型用 Claude,辅助任务用便宜的 Gemini Flash 节省成本。


案例4:主模型用 DeepSeek,辅助用本地模型

model:
  provider: "deepseek"
  default: "deepseek-chat"

auxiliary:
  vision:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5-vl"
    timeout: 300            # 本地模型慢,调高超时
    download_timeout: 60
  web_extract:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5"
    timeout: 300
  compression:
    base_url: "http://localhost:1234/v1"
    api_key: "local-key"
    model: "qwen2.5"
    timeout: 300

案例5:调整并发和超时

auxiliary:
  session_search:
    provider: "openrouter"
    model: "google/gemini-2.0-flash"
    timeout: 60
    max_concurrency: 2              # 限制同时跑2个,防止429限流
    extra_body:
      enable_thinking: false         # 关掉思考,省token

6. 完整配置模板

# ~/.hermes/config.yaml

# ==================== 主模型 ====================
model:
  provider: "minimax-cn"
  default: "MiniMax-M2.7-highspeed"
  base_url: "https://api.minimaxi.com/anthropic"

# ==================== 辅助模型 ====================
auxiliary:
  # 图片分析
  vision:
    provider: "auto"         # auto / openrouter / main / 自定义provider
    model: ""                # 留空用默认值(Gemini Flash)
    base_url: ""
    api_key: ""
    timeout: 120
    download_timeout: 30

  # 网页摘要
  web_extract:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 360

  # 上下文压缩
  compression:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 120

  # 危险命令审查
  approval:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 历史会话搜索摘要
  session_search:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30
    max_concurrency: 3
    extra_body: {}

  # 技能匹配
  skills_hub:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # MCP工具分发
  mcp:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 记忆持久化
  flush_memories:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

  # 会话标题生成
  title_generation:
    provider: "auto"
    model: ""
    base_url: ""
    api_key: ""
    timeout: 30

7. 环境变量方式(替代 config.yaml)

除了 config.yaml,也可以通过环境变量配置辅助模型:

# 在 ~/.hermes/.env 中设置
AUXILIARY_VISION_MODEL=openai/gpt-4o
AUXILIARY_WEB_EXTRACT_MODEL=google/gemini-2.0-flash
AUXILIARY_COMPRESSION_MODEL=google/gemini-2.0-flash

8. 配置建议总结

场景 主模型 辅助模型配置
不想折腾 MiniMax(当前) provider: auto(什么不用改)
已订阅 MiniMax MiniMax provider: main + MiniMax 模型
有本地 GPU MiniMax / OpenRouter 本地 Ollama(免费)
主模型用 Claude OpenRouter provider: openrouter + Gemini Flash
追求最低成本 DeepSeek / Ollama 本地 Ollama

相关文档

Left-click: follow link, Right-click: select node, Scroll: zoom
x