跳转到主要内容

数据清洗与质量

为什么数据清洗至关重要

AI代理依赖结构化、高质量的商品数据做出购买决策。一个描述含糊、分类错误、属性缺失的商品,即使通过了所有协议端点暴露出去,AI代理也很难正确理解和推荐。 ORBEXA内置AI数据清洗引擎 — Refinery Pipeline,在数据进入协议端点之前自动提升质量。

Unified Refinery Pipeline

核心实现在UnifiedRefineryPipeline.ts中,是一个多阶段的数据处理管道:
原始数据 → 字段映射 → AI描述优化 → 视觉属性提取 → AIO标准化 → 质量评分 → 输出
每个阶段都可以独立运行或按顺序串联执行。

阶段1:字段映射

问题

不同平台的字段命名不同:Shopify用body_html表示商品描述,WooCommerce用description,CSV导入可能用「商品说明」或「Product Desc」。

解决方案

ORBEXA的字段映射引擎(dataQualityService.ts)将各平台的字段自动映射到UCP/ACP标准字段:
  • 平台预设映射:Shopify、WooCommerce等主流平台有内置的映射规则
  • 智能推断:对非标准字段名,基于语义分析推断对应的标准字段
  • 手动覆盖:商家可在控制台手动指定映射关系

阶段2:AI描述优化

利用AI自动改善商品描述质量:
  • 补全缺失信息:如果描述中缺少材质、尺寸等关键信息但图片或属性中存在,自动补充
  • 规范化表述:统一度量单位、颜色表达、尺码格式
  • 提升AI可理解性:将口语化、模糊的描述改写为结构清晰的文本
商家可通过Product AI Service手动触发重新生成描述或重新清洗单个商品。

阶段3:视觉属性提取

从商品图片中自动识别和提取属性:
  • 颜色识别:从图片中提取主色调和配色
  • 材质判断:识别织物、金属、木材等材质类型
  • 款式分类:识别服装款式、家具风格等视觉特征
  • 缺陷检测:标记图片质量问题(模糊、裁切不当等)
这些视觉属性作为补充数据加入商品信息,提升AI代理的理解准确度。

阶段4:AIO标准化

AIO(AI Optimization)标准化确保商品数据完全符合AI代理的消费需求:
  • 字段格式统一(日期、价格、重量等)
  • 分类体系对齐
  • 多语言字段处理
  • 数据完整性校验

分层飞轮学习

Refinery Pipeline的映射规则采用三层飞轮学习机制:

商家级规则

针对特定商家的映射规则。例如,某商家的CSV文件中「型号」列始终对应UCP的sku字段,这条规则只适用于该商家。

品类级规则

跨商家但限定品类的规则。例如,服装类商品的「尺码」字段通常映射到size属性,这条规则适用于所有服装类商家。

全局规则

适用于所有商家的通用规则。例如,「价格」/「Price」/「售价」都映射到price字段。

飞轮效应

商家级规则 (精确度最高,覆盖最窄)
      ↓ 积累足够样本后上升
品类级规则 (中等精确度,中等覆盖)
      ↓ 持续验证后上升
全局规则 (通用性最强,覆盖最广)
每当商家手动修正一条映射,系统会学习这条规则。当同一品类中多个商家产生相似修正时,规则自动提升到品类级。当品类级规则在全局验证通过后,提升为全局规则。 接入ORBEXA的商家越多,飞轮越快,映射越准确。

Human-in-the-Loop (HITL)

AI清洗不可能100%正确。ORBEXA提供HITL审核仪表板:
  • 低置信度标记:AI对映射或清洗结果置信度低时,自动标记为待审核
  • 人工审核界面:商家或运营人员可查看AI清洗前后对比,接受或修正
  • 反馈闭环:人工修正结果会回馈给AI模型,提升后续清洗准确率
HITL不是可选功能 — 它是Refinery Pipeline的核心组成部分,确保数据质量有人工兜底。

Product AI Service

商家可通过Product AI Service对单个商品执行按需操作:
  • 重新生成描述:用AI重写商品描述
  • 重新清洗:对已清洗的商品重新执行完整Refinery Pipeline
  • 属性补全:为缺失属性的商品触发视觉提取

小结

Refinery Pipeline通过字段映射、AI描述优化、视觉属性提取和AIO标准化四个阶段,确保进入协议端点的数据质量。三层飞轮学习持续积累映射知识,HITL审核提供人工质量兜底。
下一章:API参考与限速 — 完整端点清单、认证方式和限速策略