跳转到主要内容

API与数据库接入

概述

对于自建站和非标准电商平台,ORBEXA提供灵活的数据接入方式。当Shopify/WooCommerce/WordPress插件无法覆盖时,商家可以通过CSV导入、ETL管道或视觉爬取将商品数据接入平台。

CSV导入

基本流程

ORBEXA通过ETL Router提供CSV文件导入功能:
  1. 上传CSV文件 — 商家上传包含商品数据的CSV文件
  2. 字段映射 — 平台提供可视化字段映射界面,将CSV列名映射到UCP/ACP标准字段
  3. 数据验证 — 自动检查数据格式、必填字段、数据类型
  4. 导入执行 — 验证通过后批量导入商品数据
  5. AI清洗 — 导入数据自动进入Refinery Pipeline清洗

字段映射

CSV导入的核心是字段映射。不同商家的CSV文件列名千差万别,ORBEXA的映射引擎支持:
  • 手动映射:商家在界面中逐列指定对应的标准字段
  • 智能建议:基于列名和数据内容自动推荐映射关系
  • 映射保存:映射规则保存后可复用,下次导入无需重新配置

视觉爬取

Stagehand引擎

对于没有API也无法导出CSV的平台,ORBEXA通过visualScrapeRouter.ts提供视觉爬取能力。基于Stagehand引擎,可以像人类一样浏览网页并提取商品信息:
  • 自动识别商品列表页和详情页
  • 提取商品名称、价格、图片、描述等字段
  • 处理动态渲染的页面内容
  • 支持分页和无限滚动

适用场景

  • 传统CMS搭建的电商站点
  • 没有API接口的老旧平台
  • 第三方市场/目录站的商品数据

瀑布式数据摄入

ORBEXA实现了瀑布式(Waterfall)数据摄入策略:
WooCommerce REST API
        |
        v
   成功?──是──→ 数据入库
        |

        |
        v
  视觉爬取 Fallback
        |
        v
   数据入库
优先使用API:如果平台提供REST API(如WooCommerce),先通过API获取数据。 自动降级到视觉爬取:如果API不可用或数据不完整,自动启用Stagehand视觉爬取作为降级方案。 这种策略确保无论商家的技术条件如何,ORBEXA都能获取到商品数据。

Prism Pipeline

Prism Pipeline是ORBEXA的智能数据提取引擎:
  • 多源数据归一:将来自不同来源(CSV、API、爬取)的数据归一化到统一格式
  • 智能字段识别:自动识别非标准字段名并映射到UCP/ACP标准字段
  • 数据质量评分:对每条商品数据评估完整度和质量
  • 异常检测:标记价格异常、描述缺失、图片失效等问题
Prism Pipeline是数据进入AI Refinery Pipeline清洗之前的预处理阶段。

接入方式对比

方式适用场景技术要求数据实时性
Shopify OAuthShopify商家实时(Webhook)
WooCommerce APIWooCommerce商家生成API密钥实时(Webhook)
WordPress插件非电商WordPress安装插件低频
CSV导入任意平台准备CSV文件手动触发
视觉爬取无API平台提供URL定期爬取
API对接自建站API开发按需

小结

API与数据库接入覆盖了Shopify/WooCommerce/WordPress之外的所有场景。CSV导入提供最通用的批量方式,视觉爬取解决无API平台的问题,瀑布式策略确保数据获取的可靠性,Prism Pipeline保证数据质量。
下一章:MCP Server — 5个工具和3个资源,让AI代理直接查询商品和库存