云数据仓库的诞生与演进
近十年前,在某中心首次re:Invent大会上,某中心宣布推出完全托管的PB级云数据仓库服务预览版。这项服务代表了从传统本地部署数据仓库解决方案的重大飞跃,传统方案成本高昂、缺乏灵活性,且需要大量人力和资本资源来运营。
核心技术架构演进
高性能查询执行
该服务通过生成高度优化的C++代码,将其发送到并行数据库中的分发器并执行这种高度优化的代码。这种独特的查询执行方式一直是服务的核心。在传统商业智能世界中,系统针对长时间运行的作业进行优化,但实际观察发现,服务中每天运行的数十亿查询中有90%在不到一秒内完成执行。
存储与计算分离
过去十年中支持这一目标的最大架构变化是引入了托管存储,这使得计算和存储得以分离,并在每个领域进行了大量创新。托管存储层设计用于实现99.999999999%的持久性和99.99%的可用性,跨多个可用区管理用户数据和事务元数据。
自动化与机器学习
在易用性方面,三个创新尤为突出:
- 并发扩展:系统自动配置新资源并上下扩展,无需客户采取任何行动
- 自动化表优化:系统能够观察工作负载和数据布局,自动建议数据如何在集群节点间排序和分布
- 自动编码:自动确定如何正确编码数据,为数据和工作负载提供最佳性能
多服务集成能力
数据湖与事务存储集成
该服务是云中首个能够查询对象存储数据的数据仓库,随后展示了在扫描对象存储中EB级数据的同时查询集群中数据的能力。除了查询数据湖外,对事务数据存储的集成查询也是另一项重大创新。
机器学习集成
通过集成机器学习服务,任何了解SQL的人都可以利用所有机器学习创新。从SQL提示符创建模型的能力,将数据获取到对象存储并调用机器学习服务,使用自动化机器学习构建最合适的模型来提供数据预测。
数据共享架构
通过分离存储和计算层,实现了数据共享,使客户能够在同一账户、其他账户或跨区域的集群间共享数据。这允许将数据的消费者与生产者分离,支持现代数据网格架构等场景。
未来发展方向
随着客户生成的数据量不断增加,他们希望更经济高效地分析这些数据。数据量呈指数级增长,但客户显然不希望成本呈指数级增长。这需要持续创新,并找到新的性能水平,确保处理单位数据的成本持续下降。
系统将继续在软件、硬件、硅芯片和使用机器学习方面进行创新,以确保为客户实现这一承诺。过去十年已经实现了这一承诺,未来将继续专注于确保实现这一承诺。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码