当前位置: 首页 > news >正文

自适应工作负载的智能系统构建技术解析

实例优化:让系统自动适应工作负载和数据

Tim Kraska今年夏天加入某中心,负责建立新的学习系统研究小组,他解释了“实例优化”的强大功能。

作为麻省理工学院电气工程与计算机科学系的副教授,Tim Kraska曾研究实例优化数据库系统——即能够以最少人工干预自动适应新工作负载的系统。

目前,Kraska正在休假期间,作为某中心网络服务的应用科学总监,他帮助建立了某中心的新学习系统组(LSG),该小组将专注于将机器学习集成到系统设计中。该小组的第一个项目是将实例优化技术引入某中心的数据仓库服务。

什么是实例优化?

如果为特定用例从头开发系统,由于能够为每个系统组件量身定制,可以获得数量级更好的性能。但大多数情况下这并不可行,因为工作量巨大。以数据库为例,通常至少需要七年时间才能使系统达到可用和稳定状态。

实例优化的理念是:不为每个用例构建一个系统,而是构建一个能够自我调整的系统——针对特定场景进行实例优化——尽可能接近手动调整的解决方案。

如何实现实例优化?

实现自我调整有多种方式。任何系统都有一系列旋钮和设计选择。以某数据仓库服务为例,可以调整缓冲区大小、创建物化视图、创建不同类型的排序顺序。数据库管理员可以根据工作负载调整这些旋钮并做出设计选择以获得更好性能。

第一种自我调整形式是自动做出这些决策。例如,让机器学习模型观察工作负载,找出如何调整这些旋钮以及创建什么物化视图和排序键。某数据仓库服务已经通过名为“自动化物化视图”的功能实现了这一点。

下一步是在某些情况下通过新技术替换组件,这些技术允许更多定制或以以前不可能的方式进行调优。

例如,在数据布局方面,当前系统主要支持按一个属性(可能是复合键)对数据进行分区。原因是这些系统的开发人员始终认为最终需要手动做出这些设计选择。因此,过去倾向于尽可能减少调优参数的数量。

当然,一旦使用机器学习自动调优技术,这种情况就会改变,机器学习可以更有效地探索空间。现在可能相反:提供更多自由度和更多旋钮是件好事,因为它们提供了更多定制潜力,从而获得更好性能。

第三种自我调整方法是将机器学习模型深度嵌入系统组件中,以获得比目前可能实现的更好性能。

例如,每个数据库都有一个查询优化器,它接受SQL查询并将其优化为执行计划,该计划描述如何实际运行该查询。这个查询优化器是一个复杂的软件,需要非常仔细调整的启发式方法和成本模型来确定最佳转换方式。目前的技术水平是将此视为深度学习问题,因此我们在该阶段讨论学习组件。

最终目标是构建一个由学习组件组成的系统,并以整体方式调整所有内容。有一个模型监控工作负载、观察系统并进行正确调整——可能以人类无法实现的方式。

改进的排序算法

即使对于排序这个看似已解决的问题,也有创新空间。其工作原理是在数据分布上学习一个模型——累积分布函数(CDF),它告诉您项目落在概率质量中的位置。

假设在电子商务数据库中有一个订单表,每个订单都有一个日期,您希望按日期对表进行排序。现在可以在日期属性上构建CDF,然后可以提出诸如“2021年1月1日之前发生了多少订单?”的问题,它会输出概率。

这样做的好处是,CDF函数本质上允许您询问“给定订单日期,它在排序顺序中的哪个位置?”假设模型完美,它突然允许您在O(n)时间内进行排序。

基数排序也是O(n),但可能内存密集,因为效率取决于域大小——可能有多少唯一值。如果域是1到100万,可能仍然很容易在内存中完成。如果是1到10亿,就变得有点困难。如果是1到任意的10的幂次方,最终无法在一次传递中完成。

基于模型的方法试图以巧妙的方式克服这个问题。您大致知道项目落在哪里,因此可以将它们放置到近似位置,并使用插入排序来纠正模型错误。这是我们在索引中使用的技巧,但事实证明可以将其用于排序。

工业环境研究的价值

被吸引到某中心工作的原因之一是能够获取关于现实世界工作负载的信息。实例优化完全是关于自我调整到工作负载和数据。在学术界测试这一点极其困难。

有一些基准数据集,但内部通常使用随机数生成器创建数据,并确定何时以及何种类型的查询对系统发出。

由于这种随机性,首先没有有趣的使用模式——比如仪表板查询何时运行,与加载数据的批处理作业相比。所有这些都消失了。更糟糕的是,数据本身不包含任何有趣模式,这使得要么因为一切都是随机的而太困难,要么因为一切都是随机的而太容易。

例如,当我们在非常常见的数据仓库基准测试中测试学习型查询优化器时,发现几乎没有任何改进,而对于现实世界的工作负载,我们看到了巨大改进。

经过深入挖掘发现,对于常见基准测试(如TPC-H),每个数据库供应商都确保查询计划接近完美。他们手动将系统过度拟合到基准测试。这以任何方式都无法转化为任何现实世界的客户。没有客户真正完全按照基准测试运行查询。

与某数据仓库服务的优秀开发团队合作并能够获取现实世界信息在这里提供了巨大优势。这不仅使我们能够评估先前技术是否在实践中有效,还帮助我们专注于开发新技术,通过提供更好性能或改进易用性,真正为用户带来重大改变。

学习系统组的未来方向

虽然首先专注于某数据仓库服务,因为对分析系统的实例优化已有丰富经验,但已开始与其他团队交流,并计划最终更广泛地应用这些想法。

不仅对于数据管理系统,而且跨越整个软件栈,都需要从根本上重新思考如何构建系统和系统组件。例如,每当开发人员必须在两种技术之间进行权衡或定义常量时,开发人员应该思考这个常量或权衡是否应该自动调整。在许多情况下,如果开发人员知道组件预期自我调整到工作负载和数据,她可能会完全以不同方式处理组件的设计。

例如,已有工作使用学习索引改进网络数据包分类,使用强化学习改进Spark调度算法,以及使用深度学习技术改进视频压缩,在带宽有限时提供更好体验。所有这些技术最终都将以性能、降低成本或易用性的形式影响客户体验。

有充分理由看到某中心已经在广泛采用机器学习改进系统。例如,某数据仓库服务提供多种基于机器学习的功能——如自动化物化视图或自动工作负载管理。通过学习系统组,希望加速这一趋势,实现完全实例优化的系统,以传统系统无法实现的方式自我调整到工作负载和数据。这将为某中心网络服务客户提供更好性能、成本和易用性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=27410

相关文章:

  • aardio获取exe路径
  • 分布式系统学习(一):相关概念及理论
  • AI元人文构想的新启发:从自动驾驶困境到通用价值智能的构建——声明Ai研究
  • mido配置 DNS 服务器
  • 磁盘调度算法
  • 牛客周赛 Round 112
  • CF497E Subsequences Return
  • Flutter 中运用 Color 的最优方案
  • 竞争自适应重加权采样(CARS)算法在光谱数据变量选择中的解决方案
  • 2025 最新超声波清洗机厂家推荐排行榜:工业 / 精密 / 实验室等多场景适配厂商权威榜单全自动/大型/工业/单槽/多槽超声波清洗机厂家推荐
  • AI元人文构想的新启发:从自动驾驶困境到通用价值智能的构建
  • Word通过宏统一设置样式
  • 2025 年金属线槽厂家最新推荐排行榜:覆盖不锈钢 / 铝合金 / 防火 / 大跨距 / 喷塑类型,帮您选优质厂家企业
  • 2025电子行业隧道式烘干炉/PCB板固化炉设备厂家推荐品牌/汽车行业隧道式烤炉选择哪家/汽车喷涂固化炉设备厂家对比
  • 基于蚁群算法的PID参数整定方法及MATLAB实现
  • Sql语句
  • 2025 年电缆桥架厂家最新推荐排行榜:精选不锈钢 / 铝合金 / 热镀锌等多类型优质桥架厂家,助力精准选购热镀锌/热浸锌/托盘式/防火/喷塑电/防火喷塑电缆桥架厂家推荐
  • nohup java按天输出日志
  • 【SPIE出版|往届已EI检索】第四届交通运输工程前沿国际学术会议(FTTE 2025)
  • Origin 2025b安装包下载及详细安装教程,附永久免费中文汉化破解版Origin安装包
  • st表模板
  • 2025 年北京精品旅游旅行社联系方式推荐:北京汇通清源定制旅行与一站式服务解决方案解析
  • CesiumGlobeAnchor
  • 数据驱动的爆款密码:我用Python和10万条小红书笔记数据集,解构了爆款笔记的终极公式
  • 破解安防整合难题:详解国标GB28181EasyGBS如何实现零插件Web直播
  • 基于MATLAB的雨流计数法疲劳计算GUI可视化系统
  • 2025 年园林剪刀源头厂家最新推荐排行榜:电动 / 修枝 / 果树 / 精密 / 修树 / 高枝 / 专业园艺 / 入门级 / 多功能工具选购指南
  • 离散数学与结构 Part2
  • [NOI2001] 炮兵阵地 - 洛谷
  • 告别 “能源黑箱”:MyEMS 如何让中小企业的能耗数据 “会说话”?