当前位置: 首页 > news >正文

云数据仓库十年架构演进与技术突破

云数据仓库的诞生与演进

近十年前,在某中心首次re:Invent大会上,某中心宣布推出完全托管的PB级云数据仓库服务预览版。这项服务代表了从传统本地部署数据仓库解决方案的重大飞跃,传统方案成本高昂、缺乏灵活性,且需要大量人力和资本资源来运营。

核心技术架构演进

高性能查询执行

该服务通过生成高度优化的C++代码,将其发送到并行数据库中的分发器并执行这种高度优化的代码。这种独特的查询执行方式一直是服务的核心。在传统商业智能世界中,系统针对长时间运行的作业进行优化,但实际观察发现,服务中每天运行的数十亿查询中有90%在不到一秒内完成执行。

存储与计算分离

过去十年中支持这一目标的最大架构变化是引入了托管存储,这使得计算和存储得以分离,并在每个领域进行了大量创新。托管存储层设计用于实现99.999999999%的持久性和99.99%的可用性,跨多个可用区管理用户数据和事务元数据。

自动化与机器学习

在易用性方面,三个创新尤为突出:

  • 并发扩展:系统自动配置新资源并上下扩展,无需客户采取任何行动
  • 自动化表优化:系统能够观察工作负载和数据布局,自动建议数据如何在集群节点间排序和分布
  • 自动编码:自动确定如何正确编码数据,为数据和工作负载提供最佳性能

多服务集成能力

数据湖与事务存储集成

该服务是云中首个能够查询对象存储数据的数据仓库,随后展示了在扫描对象存储中EB级数据的同时查询集群中数据的能力。除了查询数据湖外,对事务数据存储的集成查询也是另一项重大创新。

机器学习集成

通过集成机器学习服务,任何了解SQL的人都可以利用所有机器学习创新。从SQL提示符创建模型的能力,将数据获取到对象存储并调用机器学习服务,使用自动化机器学习构建最合适的模型来提供数据预测。

数据共享架构

通过分离存储和计算层,实现了数据共享,使客户能够在同一账户、其他账户或跨区域的集群间共享数据。这允许将数据的消费者与生产者分离,支持现代数据网格架构等场景。

未来发展方向

随着客户生成的数据量不断增加,他们希望更经济高效地分析这些数据。数据量呈指数级增长,但客户显然不希望成本呈指数级增长。这需要持续创新,并找到新的性能水平,确保处理单位数据的成本持续下降。

系统将继续在软件、硬件、硅芯片和使用机器学习方面进行创新,以确保为客户实现这一承诺。过去十年已经实现了这一承诺,未来将继续专注于确保实现这一承诺。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=26252

相关文章:

  • 20251007 模拟测 总结
  • 2025国庆Day6
  • Claude 封杀中国后,我终于找到了平替!
  • [退役感言]You are my only one.
  • Mortal
  • python,shell,linux,bash概念的不同和对比联系 - 指南
  • 制作局域网连接打印机exe文件
  • 深入解析:linux——账号和权限的管理
  • pandoc使用
  • c#造个轮子--GIF录制工具
  • netdata
  • 关于Elment-plus的el-table组件无法通过原生JS监听scroll事件
  • arc3.2语言sort的时候报错:(sort < `(2 9 3 7 5 1)) 得写成此种:(sort > (pair (list 3 2)))
  • 噬菌体展示技术:从诺奖成果到疫苗研发,这一 “表型 - 基因型统一” 工具如何颠覆生物研究?
  • 从零开始学Flink:实时流处理实战
  • 高质量同人动画整理回顾记录的方式
  • 斑马打印机基础知识
  • 加拿大加密货币牌照:合规化加速数字资产成功
  • 深入解析:实时通信RTC与传统直播的异同
  • Exp2-后门原理与实践
  • 【Hexo】4.Hexo 博客文章进行加密 - 实践
  • 思考的动力
  • Software Foundations Vol.I : 多态与高阶函数(Poly)
  • 数学之美感悟。
  • 基于DeploySharp 的深度学习模型部署测试平台:支持YOLO全系列模型
  • 复制别人的vmware虚拟机无法联网ubuntu2204
  • 计算机网络学习分享-0
  • 预科02git使用
  • 预科01Python复习
  • 预科01Python学习