x

五金门店拍照识别应用场景全景

生成时间:2026-06-06
版本:v1.0(首版)
作者:小罗(基于 8 部署组合 + 60+ 真实场景)
状态:产品规划文档


零、文档目的

本文系统梳理 五金门店部署视觉 AI 模型后可以落地的所有应用场景,按业务类别组织,共 12 大类 / 60+ 子场景

每套模型组合(极简 2 模型 / 性能三模型 / 边缘极速 等)都可同时支撑这些场景,一次投入、多次复用


一、模型组合速览(前置知识)

8 大部署组合详见 [VLM部署组合方案.md],此处只列最常被引用的 3 个。

A. 极简 2 模型(首选)

  • Qwen/Qwen2.5-VL-3B-Instruct-AWQ 通用视觉/中文(2.6GB)
  • PaddlePaddle/PaddleOCR-VL-1.5 价签/包装 OCR(1GB)

B. 性能三模型(稳健)

  • Qwen/Qwen2.5-VL-3B-Instruct 通用视觉/中文(4GB)
  • Tencent-Hunyuan/HunyuanOCR 价签/包装 OCR SOTA(1GB)
  • IDEA-Research/Rex-Omni 视觉定位/计数(6GB)

D. 边缘极速(收银台)

  • Qwen/Qwen2.5-VL-3B-Instruct-AWQ 通用(2.6GB)
  • prithivMLmods/Polaris-VGA-2B-Post1.0 视觉定位(1.5GB)

二、🛒 商品管理类(5 个场景)

场景 1:拍照入购物车

维度 详情
客户/店员 客户/店员拿起商品,手机拍 1 张
AI 流程 Qwen2.5-VL 识别品名 + PaddleOCR 提取规格 + SKU 匹配 → 入购物车
解决痛点 散装/无条码商品难录入;客户不想等扫码
真实收益 录入时间 30s → 3s;人工成本 0.5 元/单 → 0.05 元/单
推荐组合 A(极简)/ D(边缘)
优先级 🟢 第一波(2 周内上线)

场景 2:散装商品识别(最难的)

维度 详情
场景 散装螺丝 100 颗一堆 / 钉子一堆 / 散装电子元件
AI 流程 Rex-Omni 密集计数 + Qwen2.5-VL 型号识别 + HunyuanOCR 袋上标签
对比 传统称重(±20%误差)→ 拍照计数(80-90%精度)
推荐组合 B(性能三模型)
优先级 🟡 第二波

场景 3:包装盒品名反查

维度 详情
场景 客户拿了一盒"自攻螺丝 M3×10 304 不锈钢 100 颗/盒"
AI 流程 PaddleOCR 提取 6 项关键信息 → Qwen2.5-VL 标准化 → SKU 模糊匹配 → 入库
细节 小字密集、可能反光、倾斜拍照、透视畸变
推荐组合 A / B
优先级 🟢 第一波

场景 4:价签识别 + 改价

维度 详情
场景 店长批量检查价签是否正确
AI 流程 PaddleOCR 读价签 → 反查 SKU → 对比系统价 → 标红不一致 → 批量导出
真实场景 100 个 SKU 5 分钟检查完;传统人工 2 小时
错误率 人工 5% → AI 0.5%
推荐组合 A / B
优先级 🟢 第一波

场景 5:多商品批量录入

维度 详情
场景 客户拿一筐商品(5-10 件)一次性录入
AI 流程 Rex-Omni 框选每件 → Qwen2.5-VL 识别 → OCR 提取规格 → 合并去重
复杂场景 遮挡、重叠、角度变化、反光
推荐组合 B(性能三模型)
优先级 🟡 第二波

三、🔍 商品查询类(5 个场景)

场景 6:拍图搜 SKU

维度 详情
场景 客户拍"看起来像扳手"的图,问"这是什么?"
AI 流程 Qwen2.5-VL 描述图像 → 向量检索(Milvus/ES)→ 候选前 5 → 用户点选
典型问题 "这是几号扳手?""这种螺丝有多长?""这个有现货吗?"
推荐组合 A / B
优先级 🟢 第一波

场景 7:替代品推荐

维度 详情
场景 客户要"内六角扳手 4mm"但缺货
AI 流程 Qwen2.5-VL 识别 → 查库存 → 如缺货,Rex-Omni 找相似规格 → 推荐
价值 提升客单价、减少流失、增加复购
推荐组合 B
优先级 🟡 第二波

场景 8:商品成分/材料识别

维度 详情
场景 客户拿一捆线问"是铜芯还是铝芯?"
AI 流程 Qwen2.5-VL 识别外观 + Rex-Omni 找截面特征 + 细节分析
类似场景 304/201 不锈钢、几平方电线、水性/油性油漆、实木/颗粒板
推荐组合 B
优先级 🟡 第二波

场景 9:商品产地/品牌识别

维度 详情
场景 客户问"这是不是正品 XX 品牌?"
AI 流程 Qwen2.5-VL + Florence-2 检测 LOGO + PaddleOCR 提取防伪码 + 对比真品库
警示 "⚠️ 疑似假货,建议核对"
推荐组合 B
优先级 🔵 第三波

场景 10:商品新旧程度评估(二手回收)

维度 详情
场景 客户拿二手电钻来卖
AI 流程 Qwen2.5-VL 评估外观磨损 + HunyuanOCR 读说明书 + Florence-2 检测划痕掉漆
输出 "8 成新,建议 80 元回收"
推荐组合 B
优先级 🔵 第三波

四、📋 库存管理类(5 个场景)

场景 11:货架自动盘点

维度 详情
场景 总部远程盘点 100 家门店的货架
AI 流程 Marlin-2B 视频时间定位 → Qwen2.5-VL 关键帧识别 → Rex-Omni 定位 → HunyuanOCR 读价签 → 聚合对比
效率 100 家店盘点:人工 1 周 → AI 1 天
错误率 人工 8% → AI 1%
推荐组合 视频巡店组合(需 Marlin-2B)
优先级 🟡 第二波

场景 12:缺货预警

维度 详情
场景 货架上某商品快卖完了
AI 流程 Rex-Omni 检测空位 → Qwen2.5-VL 描述应放商品 → 对比陈列图 → 推送预警
进阶提示 "5号货架螺丝区空 30%;预估 2 天卖完;建议补货 50 袋"
推荐组合 B
优先级 🟡 第二波

场景 13:过期商品检测

维度 详情
场景 检查胶水/电池/润滑油保质期
AI 流程 PaddleOCR 提取生产日期 + Qwen2.5-VL 判断是否过期 + 标记临期
推送 "20 件商品 30 天内过期,建议促销"
推荐组合 A / B
优先级 🟡 第二波

场景 14:库存拍照盘点(进货验收)

维度 详情
场景 一卡车螺丝到货,逐袋清点
AI 流程 Rex-Omni 数每袋颗粒 + Qwen2.5-VL 识别型号 + HunyuanOCR 读外箱 → 实际入库数 → 对比采购单
节省 人工清点 1 车 2 小时 → AI 5 分钟
推荐组合 B
优先级 🟡 第二波

场景 15:错放/乱放商品检测

维度 详情
场景 客户把商品放错位置
AI 流程 Rex-Omni 检测每件位置 + Qwen2.5-VL 识别商品 + 对比陈列图 + 标红错放
推荐组合 B
优先级 🔵 第三波

五、🛍️ 销售辅助类(5 个场景)

场景 16:智能导购

维度 详情
场景 客户描述需求 → 推荐商品
对话示例 客户:"我家水龙头漏水" → AI:推荐生料带+扳手+密封圈套装
多模态输入 客户拍照/视频识别需求 + 文字/语音理解意图 + 历史购买推测偏好
推荐组合 A + Agent 增强(Gemma 4 12B)
优先级 🟢 第一波

场景 17:演示视频自动解说

维度 详情
场景 客户用手机看产品演示视频
AI 流程 Marlin-2B 提取关键事件 + Qwen2.5-VL 生成解说 + TTS 实时播报
应用 电钻使用教程、电线接线步骤、油漆施工流程、智能锁安装
推荐组合 视频巡店组合
优先级 🔵 第三波

场景 18:拍照比价

维度 详情
场景 客户拿竞品来问"你们多少钱?"
AI 流程 Qwen2.5-VL 识别竞品 + 查本店价格 + 爬虫查网络价 + 展示对比
推荐组合 A
优先级 🔵 第三波

场景 19:客户拍图问"怎么用?"

维度 详情
场景 客户买完电锯不会用
AI 流程 Qwen2.5-VL 识别型号 + 检索说明书 + 生成 5 步图文 + TTS 讲解
进阶 Marlin-2B 看演示视频给步骤 + Rex-Omni 标注关键按钮
推荐组合 A + 视频模型
优先级 🟡 第二波

场景 20:AR 试装预览

维度 详情
场景 客户想看电灯装在自家墙上的效果
AI 流程 客户拍自家墙 + Qwen2.5-VL 识别墙面 + 抠区域 + 合成电灯图
推荐组合 A + 图像生成模型
优先级 🔵 第三波

六、🛠️ 售后客服类(5 个场景)

场景 21:退换货鉴定

维度 详情
场景 客户拿坏掉的商品要求退货
AI 流程 Qwen2.5-VL 评估损坏 + Rex-Omni 找损坏点 + PaddleOCR 提取购买日期
判定规则 7 天内可退 / 质量问题可换 / 人为损坏不可退
推荐组合 B
优先级 🟡 第二波

场景 22:安装/维修指导

维度 详情
场景 客户买水管不会接
AI 流程 Marlin-2B 找视频关键步骤 + Qwen2.5-VL 生成图文教程 + Rex-Omni 标注操作点 + TTS 解说
支持类型 水管接头、电路接线、锁具安装、家具组装
推荐组合 视频组合
优先级 🟡 第二波

场景 23:商品保修查询

维度 详情
场景 客户电钻坏了问"还在保修期吗?"
AI 流程 Qwen2.5-VL 拍型号 + HunyuanOCR 读序列号 + 查系统保修期
推荐组合 A / B
优先级 🟢 第一波

场景 24:故障诊断

维度 详情
场景 客户描述"电钻不转了"
AI 流程 Qwen2.5-VL 视觉识别 + 知识库匹配 + 推荐"可能是碳刷磨损"
多模态 看外观 + 听声音(音频分析)+ 读说明书 + 综合判断
推荐组合 A + Gemma 4 12B(音频)
优先级 🟡 第二波

场景 25:配件匹配

维度 详情
场景 客户电锯链条断了问"配什么链?"
AI 流程 Qwen2.5-VL 识别型号 + 查配件库 + 推荐"¥35,本店有现货"
推荐组合 A
优先级 🟢 第一波

七、📊 运营管理类(5 个场景)

场景 26:门店布局分析

维度 详情
场景 总部想优化门店陈列
AI 流程 Marlin-2B 处理巡店视频 + Qwen2.5-VL 分析货架布局 + Rex-Omni 数人流热区
输出 "A 区人流量是 B 区的 3 倍,建议把高利润商品放 A 区"
推荐组合 视频组合
优先级 🔵 第三波

场景 27:商品摆放合规检查

维度 详情
场景 检查货架是否符合陈列标准
AI 流程 Rex-Omni 检测每件位置 + Qwen2.5-VL 识别商品 + 对比陈列标准图
推荐组合 B
优先级 🔵 第三波

场景 28:价格巡查

维度 详情
场景 总部每周检查各门店价签一致性
AI 流程 Marlin-2B 提取关键帧 + HunyuanOCR 读所有价签 + 对比总部价格表
推荐组合 视频组合
优先级 🟡 第二波

场景 29:员工操作规范检查

维度 详情
场景 检查员工是否戴工牌、是否规范操作
AI 流程 Qwen2.5-VL 识别员工行为 + Rex-Omni 定位工牌 + 判定合规
推荐组合 B
优先级 🔵 第三波

场景 30:客户行为分析

维度 详情
场景 分析客户在店内浏览路径
AI 流程 Marlin-2B 提取事件 + Rex-Omni 跟踪客户位置 + Qwen2.5-VL 识别关注商品
输出 客户动线热力图
推荐组合 视频组合
优先级 🔵 第三波

八、🛡️ 安防管理类(5 个场景)

场景 31:异常行为检测

维度 详情
场景 检测盗窃、破坏等行为
AI 流程 Marlin-2B 时间定位 + Qwen2.5-VL 行为分析 + 异常报警
检测类型 商品塞包、监控死角翻找、故意损坏、多人配合偷窃
推荐组合 视频组合
优先级 🟡 第二波

场景 32:烟雾/火灾预警

维度 详情
场景 检测电路起火、明火
AI 流程 Qwen2.5-VL 实时检测烟雾/火焰 + 联动报警 + 推送店主手机
推荐组合 视频组合
优先级 🟡 第二波

场景 33:库存异常监控

维度 详情
场景 夜间库存被搬空预警
AI 流程 定时拍照 + Rex-Omni 检测商品数量变化 + 异常推送
推荐组合 B
优先级 🔵 第三波

场景 34:顾客摔倒/事故检测

维度 详情
场景 老人在五金店摔倒
AI 流程 Marlin-2B 实时分析 + Qwen2.5-VL 识别摔倒姿态 + 立即呼叫店员
推荐组合 视频组合
优先级 🟡 第二波

场景 35:员工考勤

维度 详情
场景 自动统计员工在岗时间
AI 流程 Qwen2.5-VL 检测员工位置 + 记录到岗时间 + 统计有效工时
推荐组合 视频组合
优先级 🔵 第三波

九、📚 知识管理类(4 个场景)

场景 36:商品说明书数字化

维度 详情
场景 把纸质说明书变成可搜索的知识库
AI 流程 PaddleOCR 提取文字+表格+公式 + 整理结构化 + 入库
推荐组合 A / B
优先级 🟡 第二波

场景 37:培训资料生成

维度 详情
场景 新人入职培训
AI 流程 Marlin-2B 处理演示视频 + Qwen2.5-VL 生成图文教程 + 自动出 50 道考题
推荐组合 视频组合
优先级 🔵 第三波

场景 38:商品对比表自动生成

维度 详情
场景 客户问"电钻 A vs B 哪个好?"
AI 流程 PaddleOCR 提取两件商品参数 + Qwen2.5-VL 生成对比表 + 给出推荐
推荐组合 A
优先级 🟢 第一波

场景 39:客户 FAQ 自动生成

维度 详情
场景 分析客户常问的问题
AI 流程 Qwen2.5-VL 分析对话历史 + 聚类高频问题 + 自动生成 FAQ + 入客服知识库
推荐组合 A + Agent
优先级 🟡 第二波

场景 40:多语言说明书

维度 详情
场景 进口商品只有英文说明书
AI 流程 Qwen2.5-VL-3B 拍说明书 + 翻译为中文 + 客户扫码看中文版
推荐组合 A
优先级 🔵 第三波

十、🚚 供应链类(5 个场景)

场景 41:进货验收拍照存档

维度 详情
场景 每批进货拍照存证
AI 流程 Rex-Omni 标注位置 + Qwen2.5-VL 识别商品 + HunyuanOCR 读批次号/日期 + 入库可追溯
推荐组合 B
优先级 🟡 第二波

场景 42:物流包装检测

维度 详情
场景 发货前检查包装完整性
AI 流程 Qwen2.5-VL 检查外箱 + Rex-Omni 检测破损 + 提示加固
推荐组合 B
优先级 🔵 第三波

场景 43:退货商品质检

维度 详情
场景 客户退回商品入库前质检
AI 流程 Qwen2.5-VL 评估外观 + PaddleOCR 提取生产信息 + 判定可销售性
判定 全新可二次销售 / 包装损坏可折价 / 影响销售建议报废
推荐组合 A / B
优先级 🟡 第二波

场景 44:供应商资质核验

维度 详情
场景 审核供应商资质文件
AI 流程 PaddleOCR 提取营业执照/质检报告 + Qwen2.5-VL 验证真伪 + 自动入档
推荐组合 A
优先级 🔵 第三波

场景 45:采购需求预测

维度 详情
场景 基于销售历史预测下次采购量
AI 流程 读历史销售数据 + Qwen2.5-VL 理解季节性/促销 + 输出采购建议
推荐组合 A + 数据分析
优先级 🟡 第二波

十一、💼 财务/合规类(5 个场景)

场景 46:发票自动识别

维度 详情
场景 客户要开发票
AI 流程 HunyuanOCR 读取发票信息 + Qwen2.5-VL 核对清单 + 自动开票
推荐组合 A / B
优先级 🟢 第一波

场景 47:收银小票质检

维度 详情
场景 检查收银小票是否规范
AI 流程 PaddleOCR 提取小票 + Qwen2.5-VL 检查要素 + 提示补漏
推荐组合 A
优先级 🟡 第二波

场景 48:凭证附件分类

维度 详情
场景 财务凭证需要分类归档
AI 流程 Qwen2.5-VL 看附件内容 + 自动分类到对应科目 + 入财务系统
推荐组合 A
优先级 🔵 第三波

场景 49:税务合规检查

维度 详情
场景 检查价签是否含税
AI 流程 HunyuanOCR 读价签 + 检查含税/未税标注 + 提示修改
推荐组合 A / B
优先级 🟡 第二波

场景 50:现金盘点

维度 详情
场景 每日现金盘点
AI 流程 拍收银台抽屉 + Qwen2.5-VL 数现金面额 + 核对系统 + 差异提醒
推荐组合 A
优先级 🔵 第三波

十二、🎓 营销/客户运营类(5 个场景)

场景 51:客户拍图评价

维度 详情
场景 客户买完发买家秀
AI 流程 Qwen2.5-VL 看买家秀 + 自动生成评价文字 + 智能推荐商品
推荐组合 A
优先级 🔵 第三波

场景 52:直播带货辅助

维度 详情
场景 店员直播卖货
AI 流程 Marlin-2B 实时分析 + Qwen2.5-VL 自动识别商品 + 弹商品信息卡 + 实时解弹幕
推荐组合 视频组合 + Agent
优先级 🔵 第三波

场景 53:朋友圈/小红书内容生成

维度 详情
场景 商家发推广内容
AI 流程 拍商品图 + Qwen2.5-VL 自动生成 9 宫格文案 + 适配多平台风格
推荐组合 A + 图像生成
优先级 🔵 第三波

场景 54:节日陈列推荐

维度 详情
场景 春节前想换陈列
AI 流程 拍当前货架 + Qwen2.5-VL 推荐春节主题陈列 + 模拟效果图
推荐组合 A + 图像生成
优先级 🔵 第三波

场景 55:竞品监控

维度 详情
场景 监控隔壁五金店新品
AI 流程 拍竞品店 + Qwen2.5-VL 识别新品 + 推送"竞品新增智能锁品类"
推荐组合 A
优先级 🔵 第三波

十三、🔧 设备/工具类(5 个场景)

场景 56:工具租借登记

维度 详情
场景 客户租电钻
AI 流程 Qwen2.5-VL 拍工具+客户证件 + PaddleOCR 提取证件号 + 自动登记
推荐组合 A
优先级 🟡 第二波

场景 57:充电/借电宝类

维度 详情
场景 客户借充电设备
AI 流程 扫码+拍照 + 押金自动冻结 + 还时自动识别损坏
推荐组合 A
优先级 🔵 第三波

场景 58:二手工具评估

维度 详情
场景 客户卖二手电锯
AI 流程 Qwen2.5-VL 评估外观 + Rex-Omni 检测磨损 + HunyuanOCR 读序列号查维修记录
推荐组合 B
优先级 🟡 第二波

场景 59:工具维修进度查询

维度 详情
场景 客户问"我的电钻修好没?"
AI 流程 拍维修单 + HunyuanOCR 提取编号 + 查系统 + 回答进度
推荐组合 A
优先级 🟢 第一波

场景 60:配件适配查询

维度 详情
场景 客户拿电池问"这电池配什么?"
AI 流程 Qwen2.5-VL 识别电池型号 + 查配件库 + 列出兼容工具
推荐组合 A
优先级 🟢 第一波

十四、场景总览与落地优先级

60+ 场景速查表

类别 场景数 关键模型 商业价值
商品管理 5 Qwen-VL + PaddleOCR + Rex ⭐⭐⭐⭐⭐
商品查询 5 Qwen-VL + Florence + OCR ⭐⭐⭐⭐⭐
库存管理 5 Marlin + Rex + OCR ⭐⭐⭐⭐
销售辅助 5 Qwen-VL + Marlin + Rex ⭐⭐⭐⭐⭐
售后客服 5 Qwen-VL + Marlin + Rex ⭐⭐⭐⭐
运营管理 5 Marlin + Qwen-VL + Rex ⭐⭐⭐⭐
安防管理 5 Marlin + Qwen-VL ⭐⭐⭐
知识管理 5 PaddleOCR + Qwen-VL + Marlin ⭐⭐⭐
供应链 5 OCR + Qwen-VL + Rex ⭐⭐⭐⭐
财务合规 5 OCR + Qwen-VL ⭐⭐⭐
营销运营 5 Qwen-VL + Marlin ⭐⭐⭐⭐
设备工具 5 Qwen-VL + Rex + OCR ⭐⭐⭐
合计 60

落地优先级路线

🟢 第一波(2 周内上线,验证价值)

  • 场景 1:拍照入购物车
  • 场景 3:包装盒品名反查
  • 场景 4:价签识别
  • 场景 6:拍图搜 SKU
  • 场景 16:智能导购
  • 场景 23:商品保修查询
  • 场景 25:配件匹配
  • 场景 38:商品对比表
  • 场景 46:发票自动识别
  • 场景 59:工具维修进度
  • 场景 60:配件适配

第一波约 11 个场景,全部基于"极简 2 模型"组合 A。

🟡 第二波(1-2 月上线,提升效率)

  • 场景 2、5、7、8、12、13、14、19、21、22、24、28、33、34、39、41、43、45、47、49、56、58(约 22 个)

🔵 第三波(3-6 月上线,深度运营)

  • 其余 27 个场景(含视频、安防、营销等)

十五、投资回报分析

模型组合投入

  • 极简 2 模型(A):1-2 周开发,约 5 万
  • 性能三模型(B):1-2 月开发,约 10-15 万
  • 视频巡店组合(G):3-6 月开发,约 20-30 万

复用价值

  • A 组合支撑约 30 个场景(含第一波 + 部分第二波)
  • B 组合支撑约 50 个场景
  • G 组合支撑全部 60 个场景

单场景 ROI

场景 单店日均节省 100 店年节省
拍照入购物车 ¥50 ¥180 万
货架自动盘点 ¥200 ¥730 万
智能导购 ¥100 ¥365 万
退换货鉴定 ¥30 ¥110 万

投入 10-15 万,年节省 1000 万+(100 店规模)


十六、相关文档

  • [VLM部署组合方案.md] — 8 大组合详细对比(待写)
  • [五金门店AI对话收银系统-技术方案.md]
  • [Marlin-2B视频时序定位技术详解.md]
  • [爱优AI智能体技术方案.md]
  • [场景化输入识别-从自然语言到结构化单据.md]

文档结束。如需补充新场景或更新某场景的实施方案,请联系小罗。

Left-click: follow link, Right-click: select node, Scroll: zoom
x