AI 解析定制订单 vs 人工处理：哪些场景 AI 靠谱、哪些必须人审

一句定义

AI 解析定制订单 = 用 LLM / 规则引擎 / 视觉模型从客户的备注、选项、上传图里识别字段值，并归一到团队的字段口径上。

靠谱的 AI 解析方案有两个前提：第一，AI 输出带「信心度分数」；第二，低信心度自动转人审，而不是「猜一个交出去」。少了任何一个，AI 解析就变成赌博。

实际数据：把所有订单交给 AI 自动通过，整单报废率约 1.5-3%；按信心度分流后，报废率可压到 0.2% 以下，同时 70-80% 订单仍由 AI 独立完成。

AI 适合（可放心交付）：

模式明确的字段归一：包装词同义词归并（gift box / 礼盒 / pouch → 礼盒）、颜色名归一（black / 黑色 / #000000 → 黑色）、字体名规范化。
结构化数据提取：从 Amazon customization ZIP 的 JSON 里抽 surfaces[].areas[].text，这是结构化 → 结构化，AI 几乎不会错。
统计型查询和摘要：「过去 7 天加急订单分布」「最常出现的字体 Top 10」——结果有偏差也不影响生产。
多语言初步翻译：把英文备注翻成中文生产说明，作为「草稿」给运营审，比从头写快 5-8 倍。

必须人审（AI 不能拍板）：

用「AI 信心度阈值」框架把订单分三档：

示例 1（高信心）：客户填「Color: Black, Font: Anton, Back text: Sarah」，字段全在选项里、文本仅含拉丁字符 → AI 信心 0.97 → 自动通过。

示例 2（中信心）：客户备注「please make it a gift, ship before 12/24」，「gift」归到包装、「12/24」是日期但年份缺失 → AI 信心 0.78 → 进失配审，运营点确认日期是 2026 还是 2027。

示例 3（低信心 / 硬规则）：刻字内容 = 「For my late mother ❤️」，金额 > 500 元，触发「高金额 + 刻字含特殊字符」双硬规则 → 不论 AI 信心多少，强制必审。

误区一：以为「准确率 95%」就够了。100 条订单 5 条错，每条赔付 800 元 = 月损失 4000 元 × 30 = 12 万——这不是「准」，这是「灾难」。定制订单的目标是 99.5% 以上 + 失败兜底必审。

误区二：把 AI 当成「全自动通过按钮」。AI 输出没有信心度、没有失配队列，就是单纯「猜一个交出去」——账面好看，客诉爆炸。

误区三：以为「换更大的模型」就能解决场景理解差。70% 的解析错来自「业务规则没告诉模型」而不是「模型不够强」——给 GPT-4o 接业务规则比换 Claude Opus 不接规则有效得多。

误区四：人工审核 = 慢。配合 AI 预填的人工审核每条 30-90 秒，纯人工每条 3-5 分钟。人审不是慢，是「AI 没分场景的人审」才慢。

信心度暴露在 UI 上。每条订单字段旁边显示 AI 信心分数；运营一眼能看出「这条是 AI 高信心通过的」还是「这条 AI 也不确定」。

硬规则覆盖 AI 信心。不管 AI 多有信心，触发「高金额 / 刻字 / 敏感词 / 缺图 / 字段冲突」任一硬规则，强制进必审。

人工修正回流字段口径。运营把「For my late mother」从「背面文字」改到「内侧刻字」一次，下次系统遇到「late / memorial / in memory」会优先归内侧。AI 不是越用越笨，是越用越准。

抽检比例可配。高信心档默认抽检 5%，敏感期（新品上线、节日、促销前）可临时调到 20%——风险管理留给团队。

1. 写一份「必审清单」：高金额阈值、刻字字段、敏感词、上传图模糊判定标准——4 类硬规则先写下来，不论 AI 多自信都走人审。

2. 设定信心度阈值：从 0.90 / 0.60 起步跑两周，看高信心档的抽检准确率——准确率 ≥ 99% 可以把阈值往下调，准确率 < 98% 往上调。

3. 跟踪 4 个核心指标：AI 自动通过占比、抽检准确率、失配审平均处理时长、整单报废率——每周复盘一次。

4. 把 AI 出错的订单做成训练样本：每条人工修正都进字段口径同义词库，3 个月后自动通过占比能从 60% 提到 80%。