StarTree支持Apache Iceberg以扩展湖仓用例
基于Apache Pinot开源在线分析处理数据库的实时分析平台和云服务提供商StarTree Inc.今日宣布全面支持Apache Iceberg。
从即日起,StarTree Cloud托管服务将采用Iceberg作为其数据湖仓之上的分析和服务层。该举措为需要跨越数千并发用户的高并发实时应用中的Iceberg创造了新的使用场景。特别是,它使Iceberg能够更轻松地应用于面向客户的场景,使组织能够在不依赖复杂的多步骤管道的情况下对外暴露数据。
Iceberg是位于云存储数据文件之上的管理层,旨在提高一致性、可管理性和查询性能。它已迅速成为事实上的表标准,取代了各种专有替代方案。
Iceberg提供对Parquet等结构化文件的事务性访问,Parquet是一种针对大型分析数据集高效读写访问优化的列式存储文件格式。然而,Iceberg缺乏处理低延迟、高并发查询的原生能力。
因此,组织通常将Iceberg数据提取到单独的系统中,例如键值存储或专有格式,以实现亚秒级响应。这些方法需要工程密集型的管道和数据复制,同时限制了灵活性。
查询复杂性
"您不仅是在复制数据,而且还在放大数据本身,因为您必须物化所有维度和指标的组合,以便以类似键值存储的方式进行轻松查询,"StarTree产品负责人Chinmay Soman表示。
StarTree表示,它支持直接查询Iceberg表,而无需移动或转换底层数据。该集成支持开放格式,并利用性能增强功能,包括Pinot索引和物化、本地缓存和智能预取。
"当今的数据产品越来越依赖湖仓中的历史数据,但服务层一直缺失,"首席营销官Chad Meley表示。"通过以亚秒级延迟直接查询Iceberg,我们消除了对中间管道、重复存储和外部数据库的需求。"
高管们表示,对Iceberg的支持将StarTree的可寻址市场从最初关注的流式和低延迟分析扩展到更广泛的领域。"这对我们来说无疑是一个新的用例,"Meley说。"我们解决的主要挑战不再仅仅是数据新鲜度。它关乎帮助客户构建可扩展的数据产品,而无需所有臃肿和复杂性。"
StarTree支持直接在Iceberg表上定义各种索引和预聚合物化。数值数据、文本、JavaScript对象表示法、地理空间数据和其他类型的索引可以在计算节点上本地分布或存储在对象存储中。
Soman表示,该集成基于StarTree已经完成的查询Parquet文件和基于S3的对象存储的工作。"Parquet并非为随机读取访问而设计,但我们已经调整Pinot将其用作前向索引,"他说。"将其与我们对Iceberg清单和元数据的理解相结合,为我们提供了所需的构建模块。"
数据保持原位
该公司强调,其查询引擎仍使用专有索引策略来实现性能,但数据本身保持开放格式。"我们不会将数据从Iceberg移动到StarTree的专有格式,"Meley说。"在这种情况下,唯一专有的部分将是索引。"
对Iceberg的支持使金融科技公司等客户能够使用StarTree为面向商户的仪表板提供支持,这些仪表板报告历史现金流或群体收入指标。运输和物流组织正在构建交互式仪表板,以审查跨时间的交付绩效、错误率和路线效率。在这两种情况下,数据不需要是实时的,但仍必须按照严格的服务水平协议为大型用户群提供服务。
某研究机构的首席分析师Paul Nashawaty表示,这种方法解决了现代数据架构中日益增长的差距。"Iceberg的采用正在加速,但大多数查询引擎无法满足面向客户应用的性能SLA,"他说。"StarTree能够在不重复的情况下高并发地服务Iceberg数据,是一项及时的进步。"
Soman表示,使用Iceberg而不是Pinot的专有原生格式存在轻微的性能权衡,但Pinot仍然能够以亚秒级延迟处理每秒数百次查询。
Meley表示,支持Iceberg的决定既反映了市场势头,也反映了实际的客户需求。"我们所有的客户都在询问Iceberg,"他说。"它正在成为湖仓存储的标准,这使我们能够原生支持它,同时简化服务数据产品的架构。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码