跳到主要内容
返回资源中心
最佳实践

识别字段和审核订单有什么区别?

抽取关键词只是第一步。语义解析要识别字段、绑定上下文、保留原文、判断风险——三件事一起做才不会返工。

·9 分钟

一句定义

抽取:从文本里识别出关键词或字段值。比如从备注「back text Mom」抽取出「Mom」。

语义解析:在抽取基础上识别「这个值是什么字段、应该归到哪个生产步骤、有没有冲突、要不要审核」。

两者的差异:抽取告诉你「文本里有什么」,语义解析告诉你「这条订单能不能进生产」。

纯抽取 vs 语义解析——一张表说清差距:

维度纯抽取语义解析
输出形态关键词 / 字符串列表字段表 + 审核状态 + 原文
是否归字段否(只给值)是(值绑定字段 + 上下文)
是否识别冲突是(如「金色项链 vs 选项选银色」)
是否做风险标记是(敏感词 / 加急 / 缺图 / 拼写疑似错误)
是否保留原文看实现强制保留
衡量指标抽取准确率 %正确归字段率 + 漏审率 + 误审率
上线后能否直接进生产否(还要人工拼字段)是(带审核状态,按状态分流)

抽取告诉你「文本里有什么」,语义解析告诉你「这条订单能不能进生产」——后者才是定制类目要的能力。

适用场景

多字段订单:客户在备注里同时给了刻字、字体、位置、包装、加急——抽取只能给你 5 个字符串,语义解析才能告诉你哪个该填哪个字段。

字段冲突场景:客户填「金色项链」但选项里选「银色」——抽取认不出冲突,语义解析需要交叉验证。

风险订单:刻字含敏感词、地址含 PO Box、加急没识别——只看抽取准确率会忽略这些坑。

多语言订单:英文 + 中文混杂时,抽取容易把英文专有名词当成中文翻译,语义解析需要识别语种再决定处理。

输入输出示例

输入:「Please engrave Mom 2026 on the back of the necklace, font Anton, gift box please, ship ASAP」。

纯抽取结果:[Mom 2026, back, necklace, Anton, gift box, ASAP] —— 6 个关键词,没归字段、没风险标记。

语义解析结果

  • 背面文字 = Mom 2026
  • 字体 = Anton
  • 包装 = 礼盒
  • 加急 = 是
  • 审核状态:通过(无敏感词)
  • 原文 = 完整保留
  • 翻译 = 中文生产指令版本(待生成)

常见误区

误区一:只看抽取准确率。99% 抽取率意味着 100 单里有 1 单字段抽错——这 1 单可能是整单报废。

误区二:忽略上下文。「inside」在戒指订单里是「内侧刻字」,在杯子订单里是「内印图案」——同一个词不同字段。

误区三:误判成本不可见。抽取错的代价不只是「这条订单错了」,还有客服时间、客户信任、平台 ASIN 评分。

误区四:把抽取错当成「LLM 不够强」。常见的抽取错 70% 是「场景理解差」而不是「模型理解差」——需要业务规则而不是更大的模型。

Koru 如何处理

抽取 + 语义解析双层。先抽出候选值,再用字段规则把候选归字段、识别冲突、做风险判断。

人工修正回流。运营把「inside ring」从「内侧刻字」改到「指环内侧」后,下次系统会优先用新映射。

审核状态作为一等公民。每条输出都带审核状态,「通过 / 失配审 / 必审 / 拦截」四档,不是单纯的「成功 / 失败」。

行动建议

第一步:评估系统不要只看「抽取了多少」,看「正确归字段了多少 + 漏识别了多少必审项」。

第二步:把字段冲突、敏感词、缺图、单位混填这 4 类「需要语义判断」的场景列出来,看系统能否处理。

第三步:跑一次真实订单全流程,对比抽取结果和最终生产表——差距在哪里就是语义解析的价值。

用真实订单样例,看一次完整跑通

带 10-20 条真实订单和素材,我们演示从同步到 Excel 导出的全流程。