[亚马逊云科技上的 Databricks #3] Databricks 计算治理:实例池、集群策略和共享集群

发布日期:2026-07-02 10:02:52   浏览量 :4
发布日期:2026-07-02 10:02:52  
4

📚 系列:亚马逊云科技上的 databricks(第三部分)

  1. 在亚马逊云科技上构建 databricks 人工智能平台
  2. 基于功能角色组的基于角色的访问控制
  3. 计算治理:实例池、策略、集群 ← 您当前位置
  4. 引导超时之谜
  5. 通过亚马逊云科技私有链接修复问题
  6. 我们如何组织 terraform 代码

基于角色的访问控制决定用户是。计算治理决定他们被允许启动什么硬件。以下是实例池、集群策略和权限门控如何将“任何人都可以启动一个 128 核图形处理器盒子”转变为“您只能获得您的角色所允许的确切资源”。

在第二部分中,我们构建了基于角色的访问控制模型:用户映射到功能角色,功能角色映射到访问角色,访问角色获得授权。这控制了某人可以接触哪些数据

但还有第二个维度,直到云账单到来时才会被提及:计算。如果缺乏治理,一位好奇的分析师可能在凌晨两点启动一个由 r6i.4xlarge 节点(每个节点 16 核,128 GB 内存)组成的集群,却忘记关闭它,然后在周一给您带来一个五位数的账单惊喜。治理就是答案,而在 databricks 中,它分为三个层级。

三个层级,从上到下

将其想象为一个漏斗。每一层都限制了用户实际可以执行的操作:

层级 作用 影响对象
实例池 预热的虚拟机等待被占用 — 更快的集群启动速度 所有人(透明地)
集群策略 规则:哪些实例类型、大小、自动终止时间、运行时版本 创建集群的工程师
权限门控 每个组的 allow_cluster_create 开启/关闭 非管理员(被阻止)

除此之外,还有为那些根本不应该创建任何内容的人员提供的共享、预建集群

让我们逐层讲解。

第一层:实例池 — 预热的虚拟机

在亚马逊云科技上冷启动集群意味着:请求弹性计算云容量 → 等待实例就绪 → 安装 databricks 运行时 → 加入集群。这需要用户盯着加载图标等待几分钟。

实例池 保持一组预先获取(或准备快速获取)的虚拟机,以便集群附加到这些虚拟机上,而不是从头配置。这纯粹是为了提高速度和成本可预测性 — 实例池本身并不限制任何内容。

对于我们的工作区,我们定义了六个池,按中央处理器/图形处理器和大小划分:

池名称 实例类型 容量 标签
ip_cpu_small m6g.large (2 虚拟中央处理器 / 8 GB) 10 cpu/small
ip_cpu_medium m6g.xlarge (4 虚拟中央处理器 / 16 GB) 15 cpu/medium
ip_cpu_large r6i.2xlarge (8 虚拟中央处理器 / 64 GB) 15 cpu/large
ip_cpu_xlarge r6i.4xlarge (16 虚拟中央处理器 / 128 GB) 20 cpu/xlarge
ip_gpu_small g5.xlarge (1× A10G) 10 gpu/small
ip_gpu_large g5.2xlarge (1× A10G) 20 gpu/large

重要的配置参数在所有池中都是共享的:

  • min_idle_instances = 0 — 我们不支付费用来让虚拟机全天候保持预热状态;池按需启动,并且

    免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 关注 数据