1000门店多租户AI智能体完整方案
版本: v2.0(完整版)
日期: 2026-04-30
状态: 最终方案
一、需求概述
1.1 核心需求
| 需求项 |
规格 |
| 门店规模 |
1000家门店 |
| 每门店用户数 |
5人/店 |
| 总用户数 |
5,000 |
| 每用户每天交互次数 |
≤5次/人/天 |
| 日均总查询 |
25,000次 |
| 记忆策略 |
每天凌晨清空,重新开始 |
1.2 模型选型要求
| 用途 |
指定模型 |
| 复杂推理/业务分析 |
MiniMax-M2.7-Highspeed |
| 快速问答/一般对话 |
DeepSeek-V4-Flash |
| 图像理解 |
Qwen-3.5-VL(通义千问视觉) |
| 其他低成本场景 |
需检索经济实惠的第三方模型 |
二、架构设计
2.1 整体架构拓扑
┌──────────────────────────────────────────────────────────────────────────────┐
│ 1000门店 × 5人 = 5,000用户 │
│ 通过微信/企业微信接入 │
└─────────────────────────────────┬────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────────┐
│ 负载均衡层(Nginx/LB) │
│ - SSL终止 │
│ - 限流(每门店独立计数器) │
│ - 会话保持 │
└─────────────────────────────────┬────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────────┐
│ Hermes Gateway(单实例多租户) │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Store A │ │ Store B │ │ Store N │ ← 完全隔离 │
│ │ 员工1/2/3 │ │ 员工1/2/3 │ │ 员工1/2/3 │ │
│ │ L1私有记忆 │ │ L1私有记忆 │ │ L1私有记忆 │ │
│ │ L2共享记忆 │ │ L2共享记忆 │ │ L2共享记忆 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
│ L3 系统全局记忆(所有门店共享) │
└─────────────────────────────────┬────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────────┐
│ 模型调用层 │
│ ┌────────────────┐ ┌────────────────┐ ┌────────────────┐ │
│ │ MiniMax M2.7 │ │ DeepSeek V4 │ │ Qwen-3.5-VL │ │
│ │ (20%调用) │ │ Flash (50%) │ │ (5%调用) │ │
│ │ 复杂推理 │ │ 快速问答 │ │ 图像理解 │ │
│ └────────────────┘ └────────────────┘ └────────────────┘ │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 低成本模型(25%调用) │ │
│ │ Qwen2.5 / DeepSeek-V2.5 / GLM-4-Flash / Yi-1.5 │ │
│ └────────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────────────────────┘
2.2 记忆层级设计
┌─────────────────────────────────────────────────────────┐
│ L3 系统全局记忆 │
│ (所有门店可见,管理员可写) │
│ - 五金行业知识库 │
│ - 公司合规政策 │
│ - 系统公告 │
└──────────────────────────┬──────────────────────────────┘
│ 加载优先级:低
▼
┌─────────────────────────────────────────────────────────┐
│ L2 门店共享记忆 │
│ (门店全员可见/可写) │
│ - 客户档案(信用额度、账期) │
│ - 商品档案(安全库存、供应商) │
│ - 门店配置(营业时间、负责人) │
└──────────────────────────┬──────────────────────────────┘
│ 加载优先级:中
▼
┌─────────────────────────────────────────────────────────┐
│ L1 员工私有记忆 │
│ (仅本人可见/可写) │
│ - 个人偏好设置 │
│ - 工作习惯 │
│ - 私人备注 │
└─────────────────────────────────────────────────────────┘
2.3 每日凌晨清零机制
┌──────────────────────────────────────────────────────────────────┐
│ 每日00:00 定时任务 │
├──────────────────────────────────────────────────────────────────┤
│ │
│ 1. 关闭所有活跃对话会话 │
│ │ │
│ ▼ │
│ 2. L1私有记忆 → 选择性清零(保留个人偏好,清除对话上下文) │
│ │ │
│ ▼ │
│ 3. L2门店共享记忆 → 保留(客户资料、商品档案是业务数据) │
│ │ │
│ ▼ │
│ 4. L3系统全局记忆 → 保留 │
│ │ │
│ ▼ │
│ 5. 生成每日会话摘要归档(可选) │
│ │ │
│ ▼ │
│ 6. 重置会话计数器、日活跃用户数统计 │
│ │
│ 完成时间:00:05之前 │
└──────────────────────────────────────────────────────────────────┘
三、模型选型与成本分析
3.1 指定模型规格
3.1.1 MiniMax-M2.7-Highspeed
| 项目 |
规格 |
| 定位 |
复杂推理、业务分析、Agent核心决策 |
| 上下文窗口 |
~1M tokens(推测) |
| 适用场景 |
业务数据分析、多轮复杂对话、库存建议 |
| 调用占比 |
20%(5,000次/天) |
3.1.2 DeepSeek-V4-Flash
| 项目 |
规格 |
| 定位 |
快速问答、一般对话 |
| 特点 |
Flash模式,低延迟响应 |
| 适用场景 |
简单查询、常见问题、日营业数据查询 |
| 调用占比 |
50%(12,500次/天) |
3.1.3 Qwen-3.5-VL(通义千问视觉)
| 项目 |
规格 |
| 定位 |
图像理解、视觉问答 |
| 能力 |
商品图片识别、票据识别、库存照片分析 |
| 适用场景 |
进货拍照识别、库存盘点、发票OCR |
| 调用占比 |
5%(1,250次/天) |
3.2 经济实惠模型推荐
3.2.1 硅基流动(SiliconFlow)低成本模型
| 模型 |
用途 |
参考价格 |
适用场景 |
| Qwen2.5-7B-Instruct |
简单问答 |
¥0.1-0.3 / 1M tokens |
查天气、计算器、基础问答 |
| Qwen2.5-14B-Instruct |
一般对话 |
¥0.3-0.8 / 1M tokens |
常规业务咨询 |
| DeepSeek-V2.5 |
综合问答 |
¥0.1-0.5 / 1M tokens |
替代DeepSeek-V4-Flash降低成本 |
| Yi-1.5-9B |
快速响应 |
¥0.2-0.5 / 1M tokens |
高频简单查询 |
3.2.2 阿里云百炼(通义千问)
| 模型 |
特点 |
参考价格 |
| qwen-turbo |
快速简单 |
¥8 / 1M tokens |
| qwen-plus |
综合能力 |
¥40 / 1M tokens |
| qwen-max |
复杂推理 |
¥200 / 1M tokens |
3.2.3 其他推荐
| 模型 |
提供方 |
参考价格 |
| GLM-4-Flash |
智谱AI |
¥0.1 / 1M tokens |
| hunyuan-pro |
腾讯云 |
¥0.1-1 / 1M tokens |
3.3 模型分配策略
┌─────────────────────────────────────────────────────────────┐
│ 每日25,000次查询 · 模型分配 │
├──────────────┬──────────────┬──────────────┬──────────────┤
│ MiniMax M2.7 │ DeepSeek V4 │ Qwen-VL │ 低成本模型 │
│ Highspeed │ Flash │ (图像) │ Qwen2.5等 │
│ 20% │ 50% │ 5% │ 25% │
│ 5,000次/天 │ 12,500次/天 │ 1,250次/天 │ 6,250次/天 │
└──────────────┴──────────────┴──────────────┴──────────────┘
3.4 成本估算(记忆清零后上下文缩短)
| 参数 |
数值 |
| 平均输入Token/次 |
500(清零后上下文短) |
| 平均输出Token/次 |
300 |
| 每次交互Token |
800 |
| 日均Token消耗 |
20,000,000(20M) |
| 月均Token消耗 |
600,000,000(600M) |
月度模型成本估算
| 模型 |
占比 |
月均Tokens |
单价 |
月度成本 |
| MiniMax-M2.7-Highspeed |
20% |
120M |
¥2 / 1M |
¥240 |
| DeepSeek-V4-Flash |
50% |
300M |
¥0.3 / 1M |
¥90 |
| Qwen-3.5-VL(图像) |
5% |
30M |
¥1 / 1M |
¥30 |
| 低成本模型(硅基流动) |
25% |
150M |
¥0.2 / 1M |
¥30 |
| 合计 |
100% |
600M |
- |
约¥390/月 |
注:以上价格为参考估算,实际以各平台官方定价为准。建议预留1.5倍预算。
四、容量规划
4.1 核心参数
| 参数 |
数值 |
| 门店总数 |
1,000家 |
| 总用户数 |
5,000 |
| 日均查询 |
25,000次 |
| 峰值并发(1/3在线) |
~1,667会话 |
| 每次交互Token |
800 |
| 月均Token |
600M |
4.2 峰值负载
| 项目 |
数值 |
| 峰值并发会话 |
~1,667 |
| 峰值RPM(正常) |
~210 RPM |
| 峰值RPM(含突发) |
500-800 RPM |
| 峰值TPM |
~500K TPM |
4.3 基础设施配置
| 组件 |
配置建议 |
说明 |
| API Gateway |
3个实例 |
每实例支持约600并发 |
| Agent服务 |
4-6个实例 |
无状态,可水平扩展 |
| Redis缓存 |
2-4节点 |
会话状态、限流、队列 |
| 消息队列 |
2-3节点 |
异步任务、削峰 |
| MinIO存储 |
1主1从 |
文档、媒体存储 |
| 预计月度基础设施成本 |
¥300-800 |
含云服务器+存储+网络 |
4.4 月度总成本
| 项目 |
成本区间 |
| 模型调用(600M tokens) |
¥390-1,200 |
| 云服务器/容器 |
¥200-500 |
| 数据库/缓存/队列 |
¥100-300 |
| 存储/网络/CDN |
¥50-150 |
| 合计 |
¥740-2,150/月 |
五、多租户隔离设计
5.1 隔离维度
| 隔离维度 |
实现方式 |
| 数据隔离 |
每门店独立数据库schema或表级隔离 |
| 会话隔离 |
Redis key包含tenant_id前缀 |
| 限流隔离 |
每门店独立限流计数器 |
| 鉴权隔离 |
JWT token包含tenant_id和user_id |
| 存储隔离 |
MinIO bucket或prefix按tenant区分 |
5.2 访问控制矩阵
| 操作 |
本店员工 |
跨店员工 |
管理员 |
| 读自己的私有记忆 |
✅ |
✅ |
✅ |
| 写自己的私有记忆 |
✅ |
✅ |
✅ |
| 读本店共享记忆 |
✅ |
❌ |
✅ |
| 写本店共享记忆 |
✅ |
❌ |
✅ |
| 读他店共享记忆 |
❌ |
❌ |
❌ |
| 写他店共享记忆 |
❌ |
❌ |
❌ |
六、技术选型汇总
| 组件 |
推荐方案 |
| 后端框架 |
Spring Cloud / Go / Node.js |
| 数据库 |
MySQL + ClickHouse |
| 缓存 |
Redis Cluster |
| 消息队列 |
RabbitMQ / Kafka |
| 对象存储 |
MinIO / OSS |
| 容器编排 |
Kubernetes |
| CI/CD |
GitLab CI / Jenkins |
| 监控 |
Prometheus + Grafana |
七、部署实施计划
| 阶段 |
内容 |
周期 |
| Phase 1 |
基础架构搭建,核心Agent开发 |
4-6周 |
| Phase 2 |
单门店全流程测试,小范围试运营 |
2-4周 |
| Phase 3 |
首批100门店上线,模型调优 |
2-4周 |
| Phase 4 |
扩展至500门店,性能优化 |
2-4周 |
| Phase 5 |
全面上线1000门店,监控告警完善 |
2-4周 |
八、风险与应对
| 风险 |
概率 |
影响 |
应对措施 |
| 模型API价格大幅上涨 |
中 |
高 |
预留预算,多供应商备份 |
| 高并发性能瓶颈 |
中 |
中 |
限流+弹性伸缩+降级策略 |
| 数据安全合规问题 |
低 |
高 |
租户数据加密,定期审计 |
| 模型厂商服务中断 |
低 |
高 |
多模型备用,本地缓存 |
九、总结
9.1 关键设计决策
| 项目 |
决策 |
| 记忆策略 |
每天凌晨清零(保留L2/L3业务数据) |
| 模型策略 |
MiniMax M2.7(复杂) + DeepSeek V4-Flash(快速) + Qwen-VL(图像) + 低成本(其他) |
| 隔离策略 |
门店完全隔离,员工间L1私有隔离L2共享互通 |
| 成本控制 |
记忆清零使上下文缩短60%,月均600M tokens |
9.2 预期效果
- ✅ 每次对话从空白上下文开始,避免历史堆积
- ✅ 复杂业务用强模型,简单问答用低成本模型
- ✅ 门店数据完全隔离,隐私安全有保障
- ✅ 月度成本控制在¥740-2,150区间
文档版本:v2.0
最后更新:2026-04-30