数据清洗与质量
为什么数据清洗至关重要
AI代理依赖结构化、高质量的商品数据做出购买决策。一个描述含糊、分类错误、属性缺失的商品,即使通过了所有协议端点暴露出去,AI代理也很难正确理解和推荐。 ORBEXA内置AI数据清洗引擎 — Refinery Pipeline,在数据进入协议端点之前自动提升质量。Unified Refinery Pipeline
核心实现在UnifiedRefineryPipeline.ts中,是一个多阶段的数据处理管道:
阶段1:字段映射
问题
不同平台的字段命名不同:Shopify用body_html表示商品描述,WooCommerce用description,CSV导入可能用「商品说明」或「Product Desc」。
解决方案
ORBEXA的字段映射引擎(dataQualityService.ts)将各平台的字段自动映射到UCP/ACP标准字段:
- 平台预设映射:Shopify、WooCommerce等主流平台有内置的映射规则
- 智能推断:对非标准字段名,基于语义分析推断对应的标准字段
- 手动覆盖:商家可在控制台手动指定映射关系
阶段2:AI描述优化
利用AI自动改善商品描述质量:- 补全缺失信息:如果描述中缺少材质、尺寸等关键信息但图片或属性中存在,自动补充
- 规范化表述:统一度量单位、颜色表达、尺码格式
- 提升AI可理解性:将口语化、模糊的描述改写为结构清晰的文本
阶段3:视觉属性提取
从商品图片中自动识别和提取属性:- 颜色识别:从图片中提取主色调和配色
- 材质判断:识别织物、金属、木材等材质类型
- 款式分类:识别服装款式、家具风格等视觉特征
- 缺陷检测:标记图片质量问题(模糊、裁切不当等)
阶段4:AIO标准化
AIO(AI Optimization)标准化确保商品数据完全符合AI代理的消费需求:- 字段格式统一(日期、价格、重量等)
- 分类体系对齐
- 多语言字段处理
- 数据完整性校验
分层飞轮学习
Refinery Pipeline的映射规则采用三层飞轮学习机制:商家级规则
针对特定商家的映射规则。例如,某商家的CSV文件中「型号」列始终对应UCP的sku字段,这条规则只适用于该商家。
品类级规则
跨商家但限定品类的规则。例如,服装类商品的「尺码」字段通常映射到size属性,这条规则适用于所有服装类商家。
全局规则
适用于所有商家的通用规则。例如,「价格」/「Price」/「售价」都映射到price字段。
飞轮效应
Human-in-the-Loop (HITL)
AI清洗不可能100%正确。ORBEXA提供HITL审核仪表板:- 低置信度标记:AI对映射或清洗结果置信度低时,自动标记为待审核
- 人工审核界面:商家或运营人员可查看AI清洗前后对比,接受或修正
- 反馈闭环:人工修正结果会回馈给AI模型,提升后续清洗准确率
Product AI Service
商家可通过Product AI Service对单个商品执行按需操作:- 重新生成描述:用AI重写商品描述
- 重新清洗:对已清洗的商品重新执行完整Refinery Pipeline
- 属性补全:为缺失属性的商品触发视觉提取
小结
Refinery Pipeline通过字段映射、AI描述优化、视觉属性提取和AIO标准化四个阶段,确保进入协议端点的数据质量。三层飞轮学习持续积累映射知识,HITL审核提供人工质量兜底。下一章:API参考与限速 — 完整端点清单、认证方式和限速策略