从批处理到流式处理:AMP 的数据从开源到 ClickHouse Cloud 的旅程

Transform business strategies with advanced india database management solutions.
Post Reply
shukla7789
Posts: 1290
Joined: Tue Dec 24, 2024 4:26 am

从批处理到流式处理:AMP 的数据从开源到 ClickHouse Cloud 的旅程

Post by shukla7789 »

AMP是一个电子商务增长平台,为 Shopify 商家提供分析和优化商店绩效所需的工具。AMP 的诞生源于让经常管理数十个断开连接的应用程序的在线零售商的生活更轻松的愿望,它为 Shopify 上的一些最大品牌提供支持,包括 Ridge、True Classic、Hydroflask 等。

AMP 的旗舰分析产品Lifetimely提供有关损益 (P&L)、客户获取成本 (CAC)、生命周期价值 (LTV) 和客户行为的洞察,帮助商家快速做出数据驱动的决策并提高盈利能力。但随着 AMP 的用户群和平台的扩大,对其数据基础设施的需求也在增加。数据的复杂性和数量不断增加,很难提供商家所依赖的实时洞察,这促使 AMP 寻求更具可扩展性的长期解决方案。

AMP 高级软件工程师 Chris Lawrence在 2024 年 8 月于墨尔本举行的 ClickHouse 聚会上发表了讲话。他分享了公司实施的ClickHouse Cloud如何帮助 AMP 将其数据管道从批处理转变为实时流式传输,从而提高了其分析平台的速度和可靠性。

需要长期解决方案
Chris 说,在实施 ClickHouse 之前,AMP 依赖于“一台小 iOS 数据库 型 Postgres 服务器”。它在早期处理了他们的数据需求,但随着 AMP 平台的发展,支持数千家 Shopify 商店,其数据的复杂性和规模也随之增加。

“当达到一定规模时,性能就会开始变慢,尤其是对于实时动态报告而言,”Chris 说道。“这阻碍了我们进行大量预处理,而这些预处理是商家真正看重的快速、详细报告。”

为了解决这些问题,AMP 最初添加了 ClickHouse 作为 Postgres 的补充。“我们将整个 Postgres 实例克隆到 ClickHouse 中,仅用于查询,”Chris 说,称其为“一个非常棒的数据管道”。这种混合设置允许 AMP 处理更复杂的查询并减轻 Postgres 的压力——但这不是一个完美的解决方案。

使用批处理工作流程,Shopify 商店的数据每隔几个小时就会被拉入 Postgres,并且每天两次将数据同步到 ClickHouse 进行查询。这个过程“通常非常慢”,Chris 解释说,需要几个小时才能在两个系统之间传输和处理大量数据。
Post Reply