x

1000门店多租户AI智能体完整方案

版本: v2.0(完整版)
日期: 2026-04-30
状态: 最终方案

一、需求概述

1.1 核心需求

需求项 规格
门店规模 1000家门店
每门店用户数 5人/店
总用户数 5,000
每用户每天交互次数 ≤5次/人/天
日均总查询 25,000次
记忆策略 每天凌晨清空,重新开始

1.2 模型选型要求

用途 指定模型
复杂推理/业务分析 MiniMax-M2.7-Highspeed
快速问答/一般对话 DeepSeek-V4-Flash
图像理解 Qwen-3.5-VL(通义千问视觉)
其他低成本场景 需检索经济实惠的第三方模型

二、架构设计

2.1 整体架构拓扑

┌──────────────────────────────────────────────────────────────────────────────┐
│                          1000门店 × 5人 = 5,000用户                          │
│                           通过微信/企业微信接入                                 │
└─────────────────────────────────┬────────────────────────────────────────────┘
                                  │
                                  ▼
┌──────────────────────────────────────────────────────────────────────────────┐
│                           负载均衡层(Nginx/LB)                              │
│                           - SSL终止                                           │
│                           - 限流(每门店独立计数器)                           │
│                           - 会话保持                                          │
└─────────────────────────────────┬────────────────────────────────────────────┘
                                  │
                                  ▼
┌──────────────────────────────────────────────────────────────────────────────┐
│                        Hermes Gateway(单实例多租户)                          │
│                                                                              │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐                        │
│  │  Store A    │  │  Store B    │  │  Store N    │   ← 完全隔离           │
│  │  员工1/2/3   │  │  员工1/2/3   │  │  员工1/2/3   │                        │
│  │  L1私有记忆  │  │  L1私有记忆  │  │  L1私有记忆  │                        │
│  │  L2共享记忆  │  │  L2共享记忆  │  │  L2共享记忆  │                        │
│  └─────────────┘  └─────────────┘  └─────────────┘                        │
│                                                                              │
│  L3 系统全局记忆(所有门店共享)                                              │
└─────────────────────────────────┬────────────────────────────────────────────┘
                                  │
                                  ▼
┌──────────────────────────────────────────────────────────────────────────────┐
│                              模型调用层                                       │
│  ┌────────────────┐  ┌────────────────┐  ┌────────────────┐                 │
│  │ MiniMax M2.7   │  │ DeepSeek V4    │  │ Qwen-3.5-VL    │                 │
│  │ (20%调用)      │  │ Flash (50%)    │  │ (5%调用)       │                 │
│  │ 复杂推理       │  │ 快速问答       │  │ 图像理解       │                 │
│  └────────────────┘  └────────────────┘  └────────────────┘                 │
│  ┌────────────────────────────────────────────────────────────┐              │
│  │           低成本模型(25%调用)                            │              │
│  │  Qwen2.5 / DeepSeek-V2.5 / GLM-4-Flash / Yi-1.5         │              │
│  └────────────────────────────────────────────────────────────┘              │
└──────────────────────────────────────────────────────────────────────────────┘

2.2 记忆层级设计

┌─────────────────────────────────────────────────────────┐
│                    L3 系统全局记忆                       │
│           (所有门店可见,管理员可写)                    │
│   - 五金行业知识库                                      │
│   - 公司合规政策                                        │
│   - 系统公告                                            │
└──────────────────────────┬──────────────────────────────┘
                           │ 加载优先级:低
                           ▼
┌─────────────────────────────────────────────────────────┐
│                   L2 门店共享记忆                        │
│              (门店全员可见/可写)                       │
│   - 客户档案(信用额度、账期)                          │
│   - 商品档案(安全库存、供应商)                        │
│   - 门店配置(营业时间、负责人)                        │
└──────────────────────────┬──────────────────────────────┘
                           │ 加载优先级:中
                           ▼
┌─────────────────────────────────────────────────────────┐
│                   L1 员工私有记忆                        │
│                 (仅本人可见/可写)                      │
│   - 个人偏好设置                                        │
│   - 工作习惯                                            │
│   - 私人备注                                            │
└─────────────────────────────────────────────────────────┘

2.3 每日凌晨清零机制

┌──────────────────────────────────────────────────────────────────┐
│                     每日00:00 定时任务                            │
├──────────────────────────────────────────────────────────────────┤
│                                                                   │
│  1. 关闭所有活跃对话会话                                          │
│       │                                                           │
│       ▼                                                           │
│  2. L1私有记忆 → 选择性清零(保留个人偏好,清除对话上下文)        │
│       │                                                           │
│       ▼                                                           │
│  3. L2门店共享记忆 → 保留(客户资料、商品档案是业务数据)          │
│       │                                                           │
│       ▼                                                           │
│  4. L3系统全局记忆 → 保留                                        │
│       │                                                           │
│       ▼                                                           │
│  5. 生成每日会话摘要归档(可选)                                   │
│       │                                                           │
│       ▼                                                           │
│  6. 重置会话计数器、日活跃用户数统计                               │
│                                                                   │
│  完成时间:00:05之前                                              │
└──────────────────────────────────────────────────────────────────┘

三、模型选型与成本分析

3.1 指定模型规格

3.1.1 MiniMax-M2.7-Highspeed

项目 规格
定位 复杂推理、业务分析、Agent核心决策
上下文窗口 ~1M tokens(推测)
适用场景 业务数据分析、多轮复杂对话、库存建议
调用占比 20%(5,000次/天)

3.1.2 DeepSeek-V4-Flash

项目 规格
定位 快速问答、一般对话
特点 Flash模式,低延迟响应
适用场景 简单查询、常见问题、日营业数据查询
调用占比 50%(12,500次/天)

3.1.3 Qwen-3.5-VL(通义千问视觉)

项目 规格
定位 图像理解、视觉问答
能力 商品图片识别、票据识别、库存照片分析
适用场景 进货拍照识别、库存盘点、发票OCR
调用占比 5%(1,250次/天)

3.2 经济实惠模型推荐

3.2.1 硅基流动(SiliconFlow)低成本模型

模型 用途 参考价格 适用场景
Qwen2.5-7B-Instruct 简单问答 ¥0.1-0.3 / 1M tokens 查天气、计算器、基础问答
Qwen2.5-14B-Instruct 一般对话 ¥0.3-0.8 / 1M tokens 常规业务咨询
DeepSeek-V2.5 综合问答 ¥0.1-0.5 / 1M tokens 替代DeepSeek-V4-Flash降低成本
Yi-1.5-9B 快速响应 ¥0.2-0.5 / 1M tokens 高频简单查询

3.2.2 阿里云百炼(通义千问)

模型 特点 参考价格
qwen-turbo 快速简单 ¥8 / 1M tokens
qwen-plus 综合能力 ¥40 / 1M tokens
qwen-max 复杂推理 ¥200 / 1M tokens

3.2.3 其他推荐

模型 提供方 参考价格
GLM-4-Flash 智谱AI ¥0.1 / 1M tokens
hunyuan-pro 腾讯云 ¥0.1-1 / 1M tokens

3.3 模型分配策略

┌─────────────────────────────────────────────────────────────┐
│              每日25,000次查询 · 模型分配                    │
├──────────────┬──────────────┬──────────────┬──────────────┤
│ MiniMax M2.7 │ DeepSeek V4   │  Qwen-VL     │ 低成本模型   │
│  Highspeed   │ Flash         │  (图像)      │ Qwen2.5等    │
│    20%       │    50%        │    5%        │    25%       │
│  5,000次/天  │ 12,500次/天   │  1,250次/天  │  6,250次/天  │
└──────────────┴──────────────┴──────────────┴──────────────┘

3.4 成本估算(记忆清零后上下文缩短)

参数 数值
平均输入Token/次 500(清零后上下文短)
平均输出Token/次 300
每次交互Token 800
日均Token消耗 20,000,000(20M)
月均Token消耗 600,000,000(600M)

月度模型成本估算

模型 占比 月均Tokens 单价 月度成本
MiniMax-M2.7-Highspeed 20% 120M ¥2 / 1M ¥240
DeepSeek-V4-Flash 50% 300M ¥0.3 / 1M ¥90
Qwen-3.5-VL(图像) 5% 30M ¥1 / 1M ¥30
低成本模型(硅基流动) 25% 150M ¥0.2 / 1M ¥30
合计 100% 600M - 约¥390/月

注:以上价格为参考估算,实际以各平台官方定价为准。建议预留1.5倍预算。

四、容量规划

4.1 核心参数

参数 数值
门店总数 1,000家
总用户数 5,000
日均查询 25,000次
峰值并发(1/3在线) ~1,667会话
每次交互Token 800
月均Token 600M

4.2 峰值负载

项目 数值
峰值并发会话 ~1,667
峰值RPM(正常) ~210 RPM
峰值RPM(含突发) 500-800 RPM
峰值TPM ~500K TPM

4.3 基础设施配置

组件 配置建议 说明
API Gateway 3个实例 每实例支持约600并发
Agent服务 4-6个实例 无状态,可水平扩展
Redis缓存 2-4节点 会话状态、限流、队列
消息队列 2-3节点 异步任务、削峰
MinIO存储 1主1从 文档、媒体存储
预计月度基础设施成本 ¥300-800 含云服务器+存储+网络

4.4 月度总成本

项目 成本区间
模型调用(600M tokens) ¥390-1,200
云服务器/容器 ¥200-500
数据库/缓存/队列 ¥100-300
存储/网络/CDN ¥50-150
合计 ¥740-2,150/月

五、多租户隔离设计

5.1 隔离维度

隔离维度 实现方式
数据隔离 每门店独立数据库schema或表级隔离
会话隔离 Redis key包含tenant_id前缀
限流隔离 每门店独立限流计数器
鉴权隔离 JWT token包含tenant_id和user_id
存储隔离 MinIO bucket或prefix按tenant区分

5.2 访问控制矩阵

操作 本店员工 跨店员工 管理员
读自己的私有记忆
写自己的私有记忆
读本店共享记忆
写本店共享记忆
读他店共享记忆
写他店共享记忆

六、技术选型汇总

组件 推荐方案
后端框架 Spring Cloud / Go / Node.js
数据库 MySQL + ClickHouse
缓存 Redis Cluster
消息队列 RabbitMQ / Kafka
对象存储 MinIO / OSS
容器编排 Kubernetes
CI/CD GitLab CI / Jenkins
监控 Prometheus + Grafana

七、部署实施计划

阶段 内容 周期
Phase 1 基础架构搭建,核心Agent开发 4-6周
Phase 2 单门店全流程测试,小范围试运营 2-4周
Phase 3 首批100门店上线,模型调优 2-4周
Phase 4 扩展至500门店,性能优化 2-4周
Phase 5 全面上线1000门店,监控告警完善 2-4周

八、风险与应对

风险 概率 影响 应对措施
模型API价格大幅上涨 预留预算,多供应商备份
高并发性能瓶颈 限流+弹性伸缩+降级策略
数据安全合规问题 租户数据加密,定期审计
模型厂商服务中断 多模型备用,本地缓存

九、总结

9.1 关键设计决策

项目 决策
记忆策略 每天凌晨清零(保留L2/L3业务数据)
模型策略 MiniMax M2.7(复杂) + DeepSeek V4-Flash(快速) + Qwen-VL(图像) + 低成本(其他)
隔离策略 门店完全隔离,员工间L1私有隔离L2共享互通
成本控制 记忆清零使上下文缩短60%,月均600M tokens

9.2 预期效果

  • ✅ 每次对话从空白上下文开始,避免历史堆积
  • ✅ 复杂业务用强模型,简单问答用低成本模型
  • ✅ 门店数据完全隔离,隐私安全有保障
  • ✅ 月度成本控制在¥740-2,150区间

文档版本:v2.0
最后更新:2026-04-30

Left-click: follow link, Right-click: select node, Scroll: zoom
x