数据清洗与质量

为什么数据清洗至关重要

AI代理依赖结构化、高质量的商品数据做出购买决策。一个描述含糊、分类错误、属性缺失的商品，即使通过了所有协议端点暴露出去，AI代理也很难正确理解和推荐。 ORBEXA内置AI数据清洗引擎 — Refinery Pipeline，在数据进入协议端点之前自动提升质量。

Unified Refinery Pipeline

ORBEXA的数据质量引擎采用多阶段处理管道：

原始数据 → 字段映射 → AI描述优化 → 视觉属性提取 → AI智能标准化 → 质量评分 → 输出

每个阶段都可以独立运行或按顺序串联执行。

阶段1：字段映射

问题

不同平台的字段命名不同：Shopify用body_html表示商品描述，WooCommerce用description，CSV导入可能用「商品说明」或「Product Desc」。

解决方案

ORBEXA的字段映射引擎将各平台的字段自动映射到UCP/ACP标准字段：

平台预设映射：Shopify、WooCommerce等主流平台有内置的映射规则
智能推断：对非标准字段名，基于语义分析推断对应的标准字段
手动覆盖：商家可在控制台手动指定映射关系

阶段2：AI描述优化

利用AI自动改善商品描述质量：

补全缺失信息：如果描述中缺少材质、尺寸等关键信息但图片或属性中存在，自动补充
规范化表述：统一度量单位、颜色表达、尺码格式
提升AI可理解性：将口语化、模糊的描述改写为结构清晰的文本

商家可通过Product AI Service手动触发重新生成描述或重新清洗单个商品。

阶段3：视觉属性提取

从商品图片中自动识别和提取属性：

颜色识别：从图片中提取主色调和配色
材质判断：识别织物、金属、木材等材质类型
款式分类：识别服装款式、家具风格等视觉特征
缺陷检测：标记图片质量问题（模糊、裁切不当等）

这些视觉属性作为补充数据加入商品信息，提升AI代理的理解准确度。

阶段4：AI智能标准化

AI智能标准化确保商品数据完全符合AI代理的消费需求：

字段格式统一（日期、价格、重量等）
分类体系对齐
多语言字段处理
数据完整性校验

分层飞轮学习

Refinery Pipeline的映射规则采用三层飞轮学习机制：

商家级规则

针对特定商家的映射规则。例如，某商家的CSV文件中「型号」列始终对应UCP的sku字段，这条规则只适用于该商家。

品类级规则

跨商家但限定品类的规则。例如，服装类商品的「尺码」字段通常映射到size属性，这条规则适用于所有服装类商家。

全局规则

适用于所有商家的通用规则。例如，「价格」/「Price」/「售价」都映射到price字段。

飞轮效应

商家级规则 (精确度最高，覆盖最窄)
      ↓ 积累足够样本后上升
品类级规则 (中等精确度，中等覆盖)
      ↓ 持续验证后上升
全局规则 (通用性最强，覆盖最广)

每当商家手动修正一条映射，系统会学习这条规则。当同一品类中多个商家产生相似修正时，规则自动提升到品类级。当品类级规则在全局验证通过后，提升为全局规则。接入ORBEXA的商家越多，飞轮越快，映射越准确。

Human-in-the-Loop (HITL)

AI清洗不可能100%正确。ORBEXA提供HITL审核仪表板：

低置信度标记：AI对映射或清洗结果置信度低时，自动标记为待审核
人工审核界面：商家或运营人员可查看AI清洗前后对比，接受或修正
反馈闭环：人工修正结果会回馈给AI模型，提升后续清洗准确率

HITL不是可选功能 — 它是Refinery Pipeline的核心组成部分，确保数据质量有人工兜底。

Product AI Service

商家可通过Product AI Service对单个商品执行按需操作：

重新生成描述：用AI重写商品描述
重新清洗：对已清洗的商品重新执行完整Refinery Pipeline
属性补全：为缺失属性的商品触发视觉提取

小结

Refinery Pipeline通过字段映射、AI描述优化、视觉属性提取和AI智能标准化四个阶段，确保进入协议端点的数据质量。三层飞轮学习持续积累映射知识，HITL审核提供人工质量兜底。

下一章：API参考与限速 — 完整端点清单、认证方式和限速策略

ORBEXA MCP Server工具与资源 ORBEXA API参考与限速策略

开始

学习路径

AI代理商务入门

OTR 开放信任协议

UCP 通用商务协议

ACP 代理商务协议

MCP 模型上下文协议

AI时代的SEO

ORBEXA 一体化方案

模板与提示词

术语词典

ORBEXA AI数据清洗与质量管道

数据清洗与质量

为什么数据清洗至关重要

Unified Refinery Pipeline

阶段1：字段映射

问题

解决方案

阶段2：AI描述优化

阶段3：视觉属性提取

阶段4：AI智能标准化

分层飞轮学习

商家级规则

品类级规则

全局规则

飞轮效应

Human-in-the-Loop (HITL)

Product AI Service

小结

​数据清洗与质量

​为什么数据清洗至关重要

​Unified Refinery Pipeline

​阶段1：字段映射

​问题

​解决方案

​阶段2：AI描述优化

​阶段3：视觉属性提取

​阶段4：AI智能标准化

​分层飞轮学习

​商家级规则

​品类级规则

​全局规则

​飞轮效应

​Human-in-the-Loop (HITL)

​Product AI Service

​小结

数据清洗与质量

为什么数据清洗至关重要

Unified Refinery Pipeline

阶段1：字段映射

问题

解决方案

阶段2：AI描述优化

阶段3：视觉属性提取

阶段4：AI智能标准化

分层飞轮学习

商家级规则

品类级规则

全局规则

飞轮效应

Human-in-the-Loop (HITL)

Product AI Service

小结