VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
VMware Cloud Infrastructure - VCF Automation
请访问原文链接:https://sysin.org/blog/vmware-cloud-foundation-automation/ 查看最新版。原创作品,转载请保留出处。
作者主页:sysin.org
VCF Automation
VMware Cloud Foundation Automation
帮助 IT 部门交付自助式私有云,支持应用团队构建、运行并管理 AI、Kubernetes 和基于虚拟机的应用程序。
VCF Automation 概述
VCF Automation 9.0 使 IT 团队和云服务提供商能够基于 vSphere Supervisor 平台,为应用团队交付自助式私有云。该自助式私有云内置丰富的云服务,支持部署虚拟机(VM)、Kubernetes、网络、存储卷、Secret Store、数据库、Harbor 容器镜像仓库、外部 DNS、证书以及 AI 工作负载。
VCF Automation 9.0 引入了新的设计创新,支撑下一代私有云架构:
- 应用团队 可通过自助式用户界面、API 和 CLI 使用云服务来部署资源(如虚拟机和 Kubernetes 集群),并获取丰富的性能与基础架构运行状况指标。
- 云管理员 现在可以以多租户方式集中管理数据中心基础架构资源、配额与网络 (sysin),并为各业务部门和租户启用丰富的 VCF 与第三方云服务。
- 业务部门与租户 可通过基于策略的治理更好地控制资源使用,并获取运营指标洞察,同时让应用团队能够按需使用云服务。
新功能
VMware Cloud Foundation Automation 9.0.1.0 | 29 SEPT 2025| Build 24965341
- 扩展的 Kubernetes 管理能力:VMware Cloud Foundation (VCF) 9.0.1.0 在 Kubernetes 管理方面有重大改进。VCF Automation 部署现在包含新的 VKS 集群管理功能。您现在可以使用更强大的功能,例如数据保护、策略管理和附加组件管理,以提升环境中 VKS 集群的弹性、安全性和功能性。有关更多信息,请参阅 the official documentation。
- 改进的租户管理:提供者管理员现在可以在同一浏览器的不同标签页中同时操作多个租户 (sysin)。
- 提升的命名空间显示数量:之前在 UI 中可查看的命名空间数量为 500。现在 UI 支持分页,可选择查看更多命名空间中的 VCF 服务。
已解决的问题
VCF Automation 9.0.1.0 解决了以下问题:
-
VCF Automation 和 VCF SSO 部署可能失败,错误如下 - Invalid value: 30001: provided port is already allocated
为防止 VMSP 部署因端口冲突失败,NodePort 范围已从 8000-32767 扩展至 8000-54000。8000-31000 范围保留用于静态分配,其余范围用于动态分配。安装过程中随机分配的端口可能与其他端口冲突。
-
使用外部 syslog 端点并通过 UDP 传输时日志消息解析失败
此问题由 VMSP 引起,它在消息头开头添加了八位字节计数器。
-
SFTP 配置错误
在 VCF Operations fleet management 中配置 SFTP 失败,并显示错误代码 LCMVMSP10035。
VCF Automation
-
集群升级因磁盘卸载问题失败
在将 VMware Aria Automation 8.18 升级到 VCF Automation 9.0 时 (sysin),升级可能因磁盘卸载问题失败。为解决此问题,超时时间从两分钟增加至五分钟,并且卸载失败不再导致整个升级过程失败。
-
节点因磁盘挂载问题记录输入/输出错误
磁盘 I/O 错误的模式不正确,未能触发节点问题检测器执行节点替换。
-
某些 VKS pod 崩溃,因为 ephemeral-storage 节点资源不足
由于日志积累未能上传至 S3 bucket,ephemeral-storage 节点出现问题,导致 Pod 被驱逐。为解决该问题,进行了以下改进:
- 移除了卸载与清理之间的依赖关系,使清理操作与日志上传状态无关。
- 允许按天数配置日志数据量。
-
从 VCF Operations 触发的 VCF Automation 日志收集失败
此问题是由于在重启后恢复状态时,作业 ID 被重复使用导致的。
-
VCF Automation 支持包生成因多次超时错误而失败
为防止在生成支持包时因连接问题或 SeaweedFS 上缺少文件而出现超时失败,rclone 在低级别原先重试 10 次、高级别重试 3 次,现在两者都减少为 2 次,以确保有效重试而不造成过长延迟。
-
因网络冲突导致部署失败
部署 VCF Automation 时,如果 vCenter IP 与 VKS 集群用于 Pod 的默认子网冲突,部署会失败。
-
VCF Automation 开机操作可能在两小时后失败
开机脚本使用 kubectl 命令扩缩资源,但在命令失败时不会重试 (sysin)。为提高可靠性,脚本现在会对每个 kubectl 命令最多重试三次。
-
从 simple 扩展到 medium 后 "dataprotection-server" 副本数不匹配
从 simple 扩展到 medium 后,VCF Automation appliance 中的 dataprotection-server 仅显示一个 pod,其余两个缺失。
-
服务平台节点上的合成检查未检测到 VKSM 服务问题
VCF Operations fleet management 的 Day-2 工作流(除从备份恢复外)包含合成检查步骤,工作流在检查成功完成前无法结束。VKSM 服务不受合成检查约束,因此在 VKSM 服务尚未运行时完成的工作流会失败。
-
负载均衡创建和升级失败
在升级 VCF Automation 后,与 2-Arm 负载均衡器相关的部署可能失败,因为 Day-0 不支持该配置,但错误提示却显示池和 VIP 网络匹配。
-
VCF Automation 备份失败
控制器选择了过时的备份实例而非当前实例,导致报错:
Backup failed - no sentinel file found in the bucket
。 -
从 8.18.1 升级后 vco-app pod 无法启动(启用了 vSphere 认证的部署)
当从 VMware Aria Automation Orchestrator 8.18.1 升级到 VCF Operations orchestrator 9.0 且使用 vSphere 认证时,如果域名或管理员组中包含空格等特殊字符,则在升级过程中重新注册 vSphere 为认证提供者的命令会失败。
VCF Operations orchestrator
-
使用 VCF SSO 认证的 VCF Operations orchestrator 实例无法运行计划的工作流
当 VCF Operations orchestrator 使用 VCF SSO 认证时,在调度和用户交互方面会出现多个问题。用户停止使用 REST API/Client 后 30 分钟,共享会话被释放,此用户调度的任务将不再运行。这也会影响由该用户启动的工作流生成的用户交互。用户交互虽然可以被响应,但工作流不会继续。此问题是由于工作流和计划任务的持久化认证令牌解码不正确导致的。
-
管理员用户无法为 VCF Automation 调度工作流
当尝试调度工作流时,会收到以下错误:
"Failed to schedule workflow. org.springframework.security.authentication.AuthenticationServiceException: Can not login in VMware Cloud Foundation Automation with username and password caused by: Can not login in VMware Cloud Foundation Automation with username and password caused by: 400 Bad Request: "
-
LDAP 查询间歇性无结果
LdapUser
和LdapGroup
实例是动态的——每次使用时都会调用认证提供者。在令牌撤销时这种方式并不理想。在此情况下,调用失败并返回 Unauthorized,导致工作流运行失败。为解决该问题,现在实例为静态。在首次调用认证提供者时,数据会保存在 VCF Operations orchestrator 中,直至需要时再使用。 -
SAML Service Account 临时证书未能及时续订
由于证书问题,VCF Operations orchestrator 在运行 6 天后无法以服务身份登录。此外,保存的计划任务令牌无法续订,UI 使用的令牌也无法保持有效,从而导致内部服务器错误。
-
VCF Operations orchestrator API 允许创建具有相同属性名的配置元素和其他对象
REST API 允许在 Workflows/Actions/Configuration elements/Policy templates 中添加具有相同名称的多个变量或输入参数。
-
切换到其他实例后页面内容未更新
当用户在仪表板页面上从一个 VCF Operations orchestrator 实例切换到另一个时,视图未能刷新。
-
当 VCF Automation 浏览器会话过期时工作流运行被中断
在 VCF Automation 中嵌入的 VCF Operations orchestrator 实例中运行工作流时 (sysin),浏览器会话过期会导致工作流被中断。即使收到会话过期的提示并选择延长会话,该问题仍可能发生。这在 VCF Automation VM Apps 组织中已被观察到。
-
导入包失败并出现内部服务器错误
当尝试接受包证书时,过程失败并显示以下错误:
Failed to trust owner's certificate. Http failure response for <certificate_URL> 500 OK.
尽管出现证书错误,但仍可通过点击
Import
导入该包。 -
使用用户的 API token 调度工作流无效
此问题由 API token 使用方式的限制引起。现在可以使用 VCF Automation API token 调度 VCF Operations orchestrator 工作流。
-
无 Viewer 角色的用户仍能查看非系统工作流
没有 Viewer 凭据的用户可以浏览不同的工作流类别并查看其中的工作流,还可以在查看工作流运行时看到系统工作流的脚本。
-
“Create a Supervisor Namespace” 示例工作流失败
示例工作流
Create a Supervisor Namespace
即使成功创建命名空间也会失败。该问题由缺少infrastructure.cci.vmware.com/id
注解引起。 -
Database plug-in 在高可用模式下添加新端点时未同步端点
在不同会话中运行
Add a database
工作流时,如果间隔 1-2 秒,部分节点只能看到部分端点。即使刷新清单,该问题仍然存在,尽管资源配置已存在。 -
频繁的 pod 崩溃
vco-app
pod 在运行工作流时重启并崩溃。 -
包含异步工作流元素的工作流的包需要多次重建
当工作流包含异步工作流元素时,包重建不会包含该工作流的所有依赖项。包可能需要多次重建才能包含所有依赖项。
-
从 URL 信任证书时,即使证书已被信任仍持续警告
此问题是由于在用于检查证书别名的 REST GET 请求中发生验证错误导致的。
-
在同一会话中删除和添加属性时收到 500 错误的间歇性警报
在一次保存中更新并删除属性,或编辑属性时触发并发的
POST
和DELETE
请求,可能导致其中一个请求返回 500 错误。 -
堆内存增加问题
VCF Operations orchestrator pod 崩溃并生成堆转储,即使已增加堆内存。
-
VCF Operations orchestrator 计划任务问题
当用户查看计划任务时,开始和结束日期会更新为用户当前时区 (sysin),但重复模式的时间不会更新。当保存计划任务时,新时区应用于模式,但时间未更新。为解决此问题,现在重复模式的时间会反映原始时区与当前用户时区之间的差异。如果用户修改了重复时间,当前用户的时区将应用于计划任务。
-
Workflow designer 无法访问脚本环境
拥有 Workflow designer 角色的用户无法访问 VCF Operations orchestrator 客户端中的
Environments
菜单。 -
无法从测试环境导入 VCF Operations orchestrator 包到生产环境
包含 "Environment Repository" 对象的包导入会导致 "400 - Bad Request" 错误。
-
VCF Operations orchestrator 未对动作或可脚本任务的第一行使用正确的换行符
在 Windows 环境中,在脚本编辑器中首次按 Enter 键会将光标移到同一行的开头。
下载地址
VMware Cloud Foundation Automation 9.0
- 请访问:https://sysin.org/blog/vmware-cloud-foundation-automation/
更多:VMware 产品下载汇总