面向波动能源 AI 集群的电力感知调度层,把搁浅的 MW 变成能签约的 GPU 算力。
AI 基础设施建设者越来越多地拿到的是间歇、偏远或运行条件特殊的 MW,但卖算力时仍默认电力像传统机房那样平稳可靠。通用调度器盯的是 GPU 利用率,不管背后那条不断收缩和放大的供电边界,于是运营方只能在过度保守、昂贵硬件闲置,或把客户 SLA 卖穿之间做选择。随着海上和可再生能源支撑的数据中心陆续上线,商业瓶颈正从“去哪找 GPU”转成“怎么把波动电力打包成客户敢买的算力产品”。
为何现在
- 电力可得性如今已被明确指出,是更大 AI 模型和新数据中心建设的瓶颈。
- 海上数据中心基础设施正从思想实验走向获得资金支持的实际部署,催生出一类有全新调度需求的运营商。
- 可再生能源和海洋能源公司如今是在直接为 AI 算力需求做设计,而不只是卖电。
- 领投机构正在资助替代性的 AI 供电架构,这会增加需要软件来商业化波动能源的站点数量。
催化因素。 Panthalassa 这轮 $140 million 融资说明,AI 运营商正在主动把算力迁往非传统电源,因为电力可得性已经成了真正的限制项。
创意
产品跑在 Slurm、Kubernetes 或自研集群管理器之上,把实时供电边界直接翻译成可以拿去卖的算力分层。它会预测一个站点到底能安全承诺多少 GPU-hour,把高价值关键负载和弹性负载拆开管理,并随着能源条件变化动态调整队列时段和价格。对运营商来说,这能把原本卖不出去的间歇性电力变成新增收入,同时守住核心 SLA。对客户来说,平台给出更便宜的弹性产能,也把完工窗口和能源来源讲清楚。时间一长,公司还能沉淀一套基准数据,解释波动供电站点究竟怎样把 MW 兑现成 AI 吞吐。
差异化。 现有集群调度器把电力当静态约束,公用事业软件又默认算力需求不归自己管。这家公司盯的正是两者之间那层空白:把波动的 MW 变成可签约的 GPU 产品。它的护城河来自站点级运行数据——电力波动、队列结构和硬件行为到底如何彼此牵动。数据一多,预测、定价和 SLA 设计都会越做越准。到那时,这套数据不只对运营商有价值,对金融机构、保险方,以及评估非传统 AI 产能的客户也会越来越重要。
| 滩头市场 | 为首批部署海上、表后可再生能源或储能支撑电力集群的独立 GPU 云运营商服务;这些客户最初销售的是允许灵活完工窗口的批量训练和离线推理任务 |
|---|---|
| 切入点 | 一层电力感知的调度与商业化软件,接入实时电力边界,预测可用 GPU-hour,并自动只准入、定价和路由那些符合该能源画像的任务 |
| 非显而易见洞察 | AI 里真正稀缺的资源,已经不只是 GPU,而是能拿去签约的电力可预测性。随着海上、储能支撑和表后供电站点开始成立,真正值钱的控制层会把波动的 MW 变成可售卖、可履约的 GPU 产品,而不是继续假设电网会像传统数据中心那样平稳。 |
| 风险投资级路径 | 先从波动电力集群上的弹性 AI 工作负载控制平面切入,再扩展到标准调度、能源来源证明、产能交易市场,以及面向所有受电力约束 AI 基础设施的融资级表现数据。 |
| 主要用户 | 正在上线 10–100 MW 非传统电力支撑算力集群的独立 GPU 云运营商,其基础设施副总裁或容量工程负责人 |
|---|---|
| 次要用户 | 愿意购买打折弹性训练产能的基础模型实验室容量规划负责人 |
| 经济买方 | AI 基础设施服务商的 COO、基础设施副总裁,或云算力业务 GM |
| 首个客户 | 一家处于 Series A 或 B 的 GPU 云创业公司,正在用表后可再生能源、储能或近海电力上线首个 20–50 MW 集群,并希望在利用率稳定前就卖出企业训练合同 |
|---|---|
| 购买触发点 | 新站点上线后供电并不平稳,销售团队必须拿出一种可信的方法来签约产能,又不能把 uptime 承诺做爆 |
| 当前替代方案 | 通用集群调度器,加上基于表格的容量规划、人工限流和保守超配 |
| 切换理由 | 这层切口让运营商能把电力波动直接货币化为打折弹性算力,同时保护高价队列,因此比人工管控更快卖出更多产能 |
| 定价假设 | 按托管 MW 收取平台费,再对排入弹性产能层的 GPU-hour 收取用量费 |
待完成任务
| 任务 | 当前替代方案 | 成功指标 |
|---|---|---|
| 当一个新的波动供电 AI 站点上线时,帮助基础设施运营商把合适的任务承诺给合适的客户,让他们在不违背 SLA 的前提下卖出更多产能。 | 在通用调度器里做人工限流和保守超卖 | 可销售利用率和弹性产能收入提升,同时未履约任务承诺不增加 |
flowchart LR Buyer[GPU 云运营商] --> Pain[供电波动让产能难以售卖] Pain --> Product[电力感知 GPU 调度器] Product --> Outcome[在不触发 SLA 失约的前提下卖出更多利用率]
- 信号 · 5/5这组信号同时锚定了一笔大额融资事件,以及多个来源重复强调“电力已经成为 AI 瓶颈”。
- 痛点 · 4/5如果电力波动没有被管理好,运营商可能因 GPU 闲置或合同失约而损失数百万美元。
- 切入点 · 5/5面向弹性 AI 工作负载的电力感知准入控制,是一个狭窄、清晰且绑定具体流程的首个产品。
- 防御性 · 4/5把电力边界与吞吐、SLA 结果连起来的专有运行数据,会逐步累积成强护城河。
- 规模化 · 5/5如果非传统电力成为 AI 产能的重要来源,这层调度与商业化软件就可能变成核心基础设施。
- GPU 云创业公司
- 能源资产开发商
- 数据中心运营商
- 集群软件厂商
- 对接集群控制平面
- 预测电力边界
- 打包算力层级
- 调度软件
- 电力到吞吐的预测模型
- 与集群管理器的集成能力
- 把间歇性电力变成可销售算力
- 在变现弹性负载时保护高价值 SLA
- 预测并证明能源支撑的产能
- 高触达部署
- 技术客户管理
- 容量规划复盘
- 直销
- 数据中心与能源项目合作伙伴
- GPU 云生态
- 独立 GPU 云运营商
- AI 基础设施开发商
- 购买弹性产能的基础模型实验室
- 工程研发
- 部署与支持
- 云基础设施
- 面向 AI 基础设施运营商的销售
- 按 MW 收取平台费
- 按已调度 GPU-hour 收取用量费
- 高级分析模块
市场
| TAM | $74.6M 自下而上、保守的可见 MW 测算法:Crusoe 在 Abilene 新宣布 900 MW 园区,Soluna 的 Project Kati 为 166 MW,两者合计 1,066 MW 的公开可见能源优先 AI 产能;若按每 MW 每年约 $70k 的软件支出估算,对应 TAM 约 $74.6M。这个估算刻意没有计入其他站点,且假设定价只占隐含 GPU 算力收入的一小部分。 [22][25] |
|---|---|
| SAM | $30.0M 把 TAM 进一步收缩到第一波滩头市场:大约 500 MW 的北美独立 GPU 云和可再生能源支撑站点,更可能向第三方出售产能,而不是把能力内部化;按每 MW 每年 $60k 估算,SAM 约为 $30.0M。 [1][22][24][25] |
| SOM | $4.8M 第 3 年可达的 SOM 假设托管规模为 80 MW,按每 MW 每年约 $60k 计算,相当于 8 个平均 10 MW 的站点,或 4 个平均 20 MW 的站点。这个规模相对公开可见站点体量并不激进,也符合先滩头后扩张的节奏。 [16][18][22][25] |
高管要点
- 滩头市场已经冒出来了,但买方池依旧很窄:从 Panthalassa 新融资,到一批从数十 MW 直接跃迁到 166 MW、900 MW 级别的项目公告,能源优先的 AI 基础设施不再只是概念,可首批客户仍主要集中在新型 GPU 云和能源支撑型运营商这小一圈。
- 最硬的切口不在“再做一个调度器”,而在把产能卖出去:超大云厂商的 spot / preemptible 产品已经证明,打折弹性算力有人买;反过来看,通用调度器至今仍把电力当静态约束,而不是可以对外售卖的产品属性。
- 现有厂商最大的威胁是把功能顺手吸收掉,所以创业公司必须掌握面向波动能源站点的实时电力预测、任务准入和 SLA 打包,而不是沦为又一块集群大屏。
- 公开 GPU 定价说明,就算软件抽成不厚,账也能算过来,因为每个 MW 的 AI 产能在弹性产能带来的额外抬升出现前,本身就有很高的收入密度。
- 采用阻力主要卡在运维链路,而不是认知教育:基础设施团队本来就会采购托管 Slurm、Kubernetes 和各类集群工具,但只要软件要碰关键路径,他们就会格外谨慎。
- 为什么是现在,理由已经不止“海上算力”这一条:电池、现场发电和可再生能源弃电消纳都在进入 AI 基础设施设计,这会把需要电力感知控制平面的站点数量继续往上推。
市场定义
这个市场是一类软件:它把受限或波动供电的 AI 集群包装成能拿去卖的算力产品,服务对象包括独立 GPU 云、可再生能源支撑的数据中心开发商,以及其他无法假设电网始终平稳的运营方。第一波买方主要在北美,因为当地可中断与弹性算力市场已经被教育出来,而且不少能源优先 AI 项目正在密集公开。纳入范围的能力包括实时电力预测、准入控制、弹性分层打包,以及叠在现有集群管理器之上的队列编排。排除范围则包括通用调度器、泛化的 DCIM / 能源管理工具、零售 GPU 中介,以及那些把问题完全内化、并不出售中立控制软件的垂直整合云。 [3][4][6][8][10][12][22][24][27]
用户与买方
一线用户通常是容量工程和集群运维团队,他们每天要决定在不断变化的供电边界下,哪些任务能答应、该答应给谁。经济买方通常是 GPU 云或能源支撑型算力运营商的 COO、基础设施副总裁或产能 GM。他们最急的事,是守住高价值 SLA、把弹性工作负载卖出钱,并拦住销售团队在站点可用电力、制冷或送电计划仍在变时把合同卖穿。现有替代方案,基本还是基于 Slurm / Kubernetes 的通用队列、人工限流和表格容量规划。 [3][4][6][8][9][10][11][12][14][17][19][21]
购买触发点
- 新站点或扩容阶段上线时,如果供电并不平稳或是分阶段送电,运营商就需要一种可信的方法,在利用率尚未稳定前先把产能签出去。 [1][22][25]
- 销售团队想像 spot / preemptible 算力那样推出打折弹性产能,而不是让间歇性产能白白闲置。 [3][6][8][20]
- 当运营商开始需要处理“谁拿到稀缺产能”“何时允许抢占”“这些取舍如何商业化对外呈现”等策略问题时,现有 Slurm 或 Kubernetes 队列就不够用了。 [10][11][12][14][17][19]
支付意愿
付费意愿主要由现有弹性算力和集群运维开支侧面托住。AWS 和 Google 早已把可中断产能做成相对按需价打 90%+ 折扣的标准产品;Lambda 和 Crusoe 公布的 H100 / H200 定价也大致落在每 GPU-hour $3.9 到 $6.2 区间。换句话说,只要软件能把可销售利用率往上抬一点,或让弹性产能卖得更稳,足以支撑一笔不小的软件预算,而不需要企业额外新开一类成本中心。 [3][6][16][20][32] [3][6][16][20][32]
品类动态
顺风因素
- Spot 和 preemptible 算力市场已经让用户习惯了这样一个概念:某些 AI 工作负载可以拿交付确定性去换更低价格。
- 能源优先运营商正在把 AI 算力和现场发电、储能或弃电型可再生能源绑定起来,这会增加供电不平稳站点的数量。
- 调度原语正在商品化,因此相比重新造一个集群管理器,叠加一层商业化软件更现实。
逆风因素
- 初始买方群体仍然很小,而且最成熟的一些运营商可能会更偏好垂直整合方案或内部工具。
- 任何触碰准入控制的软件,都会遇到运行昂贵 GPU 集群的运营商在信任、集成和回滚上的顾虑。
验证信号
- Panthalassa 的 $140M 融资说明,投资人愿意为非传统 AI 供电架构下注,而不再默认未来所有产能都必须落在传统电网支撑园区里。
- Crusoe 宣布为 Microsoft 建设新的 900 MW AI 园区,并表示更大的 Abilene 站点预计可达 2.1 GW,这表明“电力塑形”的 AI 基础设施需求已经来到园区级规模。
- Crusoe 与 Form Energy 宣布为 AI 数据中心提供 12 GWh 铁空气电池,说明“塑形供电”正在进入新站点的实际运行设计。
- Soluna 明确把 AI 负载描述为弹性需求,并表示 Project Kati 是一个 166 MW 的风电数据中心,其中首期为 83 MW。
- Lambda 和 Runpod 都提供托管 Slurm / 集群产品,这说明运营商已经愿意在裸 GPU 之上购买更高层控制与运维工具。
- AWS、Google 和 Azure 都在销售可中断产能产品,这证明市场确实接受“更低价格换更弱交付保证”的算力。
监管与技术约束
- 数据中心能耗强度和大负载规划依然是真实约束,因此任何商业化软件层都必须把承诺出去的算力准确映射到站点实际的电力和制冷上限。
- 弹性产能产品只有在工作负载能容忍中断、抢占或完工窗口的前提下才成立。
- 集成风险很高,因为产品必须在不引发不稳定的前提下接入或影响 Slurm、Kubernetes 或托管式集群控制平面。
- 预测质量依赖对实时电力、制冷和队列遥测的访问,而这些数据往往分散在不同运营系统里。
- 安全和运营方信任非常关键,因为软件会触碰调度策略、产能分配,以及可能面向客户做出的交付承诺。
竞争
竞争从四个方向涌来:已经卖可中断或预留产能的云平台、掌握任务放置权的开源调度器、把运维和算力销售打包的新型 GPU 云,以及在自有技术栈里把问题吃掉的垂直整合能源优先运营商。创业公司不该去替代 Slurm,也不该退化成另一个 GPU 中介;它真正该拿下的,是把波动的 MW 翻成可签约 GPU 产品的那一层。 [3][4][8][10][11][16][18][20][21][29][35]
| 竞争对手 | 阶段 | 切入点 | 定价 | 优势 | 相对劣势 |
|---|---|---|---|---|---|
| SchedMD / Slurm | incumbent | 面向 HPC 和 AI 集群的默认开源工作负载管理器,内置 QoS、预留和抢占。 | 开源软件;企业支持和服务另行收费。 | 在 GPU / HPC 环境里具备深厚的运行可信度和广泛部署基础。 | 它优化的是调度原语,而不是把波动供电产能打包成面向客户的产品或收入感知的准入规则。 |
| AWS EC2 Spot + Capacity Blocks | incumbent | 直接在 hyperscaler 云内商业化可中断和预留 GPU 产能。 | Spot 最多可比按需价格低 90%;Capacity Blocks 用于预留 ML GPU 产能。 | 买方熟悉度高、API 成熟,而且直接证明弹性算力是现实存在的购买行为。 | 它只解决 AWS 内部的问题,帮不了第三方运营商把自己的波动供电站点商业化。 |
| Lambda | scale-up | 拥有公开 GPU 定价,并提供托管 Slurm / Kubernetes 的 neocloud。 | 公开 H100 和 B200 实例 / 集群价格;大规模预留集群的 H100 定价大致为每 GPU-hour $5.54–$6.16。 | 定价透明、运行成熟,而且通过托管集群进入的正是创业公司想拿下的买方群体。 | Lambda 卖的是产能和托管基础设施,而不是面向第三方站点的中立电力感知商业化软件层。 |
| Runpod | scale-up | 面向开发者、交付速度快的 GPU 云,并提供 instant clusters 和基于 Slurm 的集群文档。 | 公开 pods 和 serverless 定价,并附带 instant-cluster 文档。 | 上手快,适合那些最看重速度和灵活性的运营商或买方。 | 它并不围绕供电边界预测,也不以受站点能源约束驱动的弹性产能打包为核心。 |
| Crusoe | scale-up | 一家垂直整合的能源优先 AI 云,把数据中心、电力策略、云定价和运维工具打包在一起。 | 提供公开云定价,包括 H100 / H200 费率以及 spot / on-demand 选项。 | 它是最完整的替代方案,因为可以通过垂直整合而不是中立软件来解决问题。 | 中立创业公司可以服务那些想获得这项能力、却不愿购买 Crusoe 整套基础设施栈或转投其云的运营商。 |
为什么现有厂商不会默认胜出
- 云平台. AWS、Google Cloud 和 Azure 已经训练买方接受 spot、preemptible 和 reserved GPU 产能,但这些产品都绑定在各自的基础设施里,既不会围绕具体站点的供电边界或分阶段送电优化,也不提供中立的多站点商业化能力。
- 开源调度器. Slurm、Kueue 和 Kubernetes 能处理配额、抢占、队列公平性和任务放置,但它们并不会原生把不断变化的电力供给转成产品层级、交付窗口或收入感知的准入规则。
- Neocloud 运营商. Lambda 和 Runpod 的确能快速卖出托管集群和算力,但它们的经济重心仍是售卖标准化算力库存;而对于那些在变成传统云区域之前,就需要商业化软件的站点,中立控制平面仍然有机会胜出。
- 垂直整合的能源优先 AI 云. Crusoe 是最强的战略替代方案,因为它把能源、数据中心、云定价和运维平台全都打包了;但当运营商只想获得这项软件能力,而不愿把整套基础设施栈外包出去时,这种垂直模式并不会天然取胜。
- 内部运维. 许多运营商可以把调度器控制、表格和人工限流拼起来用,但预测、打包和证明弹性产能的运维负担,正是专业软件应当创造价值的地方。
商业计划
这家公司最该卖的,不是另一个调度器,而是一层电力感知的商业化软件,目标客户是北美那些正在上线 10–50 MW 波动供电集群、却必须在站点性能尚未稳定前就把产能签出去的 GPU 云运营商。首个产品应跑在 Slurm、Kubernetes 或托管式集群控制平面之上,先做只读预测、弹性队列和 SLA 打包。第一批客户应是处于 Series A 或 B 的新型 GPU 云,或具备能源支撑能力的运营商;它们正在把表后供电、储能支撑、弃电可再生能源或近海电力站点推向上线,也想在守住高价值队列的同时,把更便宜的弹性训练产能卖出去。真正的购买触发点,是站点上线或扩容时出现分阶段送电和供电不平稳,因为到了这个节点,表格规划和通用调度器已经不够拿来签合同。研究说明这个切口真实存在,也有付费基础,但短期市场仍然偏窄,SAM 约为 $30.0M;如果想跑到风险投资要求的体量,后续必须扩进更多受电力约束的 AI 基础设施场景。产品和 GTM 的顺序因此也很明确:先用只读模式证明价值,先把弹性产能打包卖出去,等公司沉淀出站点级预测数据和运营信任后,再逐步接手准入控制。眼下最大的市场风险仍是量:现有材料还无法证明未来 24 个月到底会有多少非超大云厂商的波动供电 AI 站点真正商业化落地,所以早期成败更该看付费试点和托管 MW,而不是客户 logo 数量。
问题
- 独立 GPU 云和能源支撑型 AI 站点越来越多地拿到可用但间歇、分阶段上线或运行条件特殊的 MW,可它们仍然得带着可信交付承诺去卖算力。
- 通用调度器和人工容量规划能分配任务,却不能把不断变化的供电边界转成可销售的产品层级、定价和 SLA 规则,所以运营商要么让 GPU 闲着,要么过度收缩销售,要么承担失约风险。
解决方案
- 在现有集群管理器之上提供一层控制软件,根据实时电力和站点遥测预测可用 GPU-hour,打包高价值与弹性产能层级,并建议哪些工作负载适合当前供电边界。
- 先从只读预测、弹性队列创建和商业策略工具做起;等运营商信任预测和异常处理能力后,再升级到自动准入控制。
为什么我们会赢
- 滩头市场的痛点并不抽象,而是被一个明确触发点、明确买方和明确工作流钉死:新的波动供电站点需要一套方法,在利用率还没跑稳前先把产能安全签出去。
- 现有调度器掌握的是队列机制,云平台掌握的是自家的 spot 产品,但两边都没有给第三方运营商一层中立软件,把站点级电力波动翻译成可签约的 GPU 产品。
- 早期部署会持续沉淀一套专有数据集,把电力波动、队列结构和实际交付 GPU-hour 连起来,预测、定价和 SLA 设计也会因此越做越准。
| 滩头市场 | 北美独立 GPU 云运营商;它们正在上线首批 10–50 MW 的表后可再生能源、储能支撑、弃电型或近海供电影响下的集群,最初销售的是允许灵活完工窗口的批量训练或离线推理。 |
|---|---|
| 切入点理由 | 这块切片的购买触发最清晰,可触达的技术买家数量有限而聚焦,且有明确验证指标——如托管 MW、可销售利用率提升、预测误差、弹性队列填充率和避免 SLA 失约;相比卖一个泛化的 AI 基础设施优化平台,这条路径更快验证。 |
| 推进顺序 | 先做预测和弹性产能打包,因为运营商会比起一项新的控制平面依赖,更早接受一层只读覆盖;等公司证明带来商业提升并赢得运行信任后,再补上准入控制、更广泛的站点集成和扩展分析。 |
| 暂不进入 | 完整替换 Slurm、Kubernetes 或托管式集群控制平面。 · 面向终端客户、跨多家提供商的零售型聚合市场。 · 需要平稳供电假设的常开低时延推理或高端企业工作负载。 · 在核心控制软件尚未部署前,就单独售卖融资、保险或能源来源分析产品。 |
| 切入点 | 先把一个付费试点卖给正在上线波动供电站点的 GPU 云基础设施或产能负责人,把软件讲成“最快做出折扣弹性算力产品、又不把高价值 SLA 置于风险里”的工具;一旦试点证明可销售利用率提升,而且完工窗口表现稳定,再切成年付生产定价。 |
|---|---|
| 渠道 | 面向 neocloud、AI 基础设施和能源支撑站点运营商的创始人主导直销。 · 会面向 AI 站点做市场推广、且能在送电前介绍新项目的能源和数据中心开发商。 · 已经深入集群运维环节的托管 Slurm、Kubernetes 和 NVIDIA 生态伙伴。 |
| 漏斗目标 | 每年 12–15 个目标账户 -> 30–40% 合格试点洽谈 -> 25–35% 付费试点转化率 -> 50%+ 试点转生产转化率 -> 60%+ 的生产客户在 12 个月内扩展托管 MW 或增加第二个站点。 |
| 定价 | 先做付费试点,再转为按活跃托管 MW 计价的年度软件收费,同时对通过平台排期的弹性 GPU-hour 收取二级用量费;定价逻辑是,研究表明如果软件真能提高可销售利用率并降低 SLA 风险,大约 $60k–$70k 每 MW 每年是站得住的。 |
| MVP | MVP 应该接入实时或周期性的电力边界输入与队列遥测,预测可安全销售的 GPU-hour,建立高价值与弹性产能规则,并为运行在 Slurm、Kubernetes 或同类托管控制平面上的单个集群提供一套只读规划控制台和审计日志。它一开始不该接管完整任务放置;要证明的是,运营商在把产品插进关键链路前,就能更有把握地签约和路由弹性工作负载。 |
|---|---|
| 6 个月 | 落地 1–2 个付费试点,支持一个接近生产环境的集群集成,交付适用于批量训练和离线推理的弹性队列策略模板,并在真实工作负载上证明预测精度与利用率提升。 |
| 12 个月 | 增加带保护机制的准入控制自动化、站点级 SLA 策略管理、面向客户的弹性产能报价工作流,以及在试点中最常见的集群遥测与调度栈上的可复用集成。 |
| 24 个月 | 在多家运营商之间标准化一层多站点控制软件,加入中断容忍度与能源关联吞吐的基准测试,并从单站点弹性产能打包扩展到现有客户内部的组合级容量规划。 |
| 关键押注 | 一层只读覆盖软件在运营商愿意信任实时准入控制前,就能展示足够高的 ROI。 · 早期站点会有足够多能容忍中断的批量训练和离线推理需求,足以填满弹性层。 · 买方愿意为托管 MW 和商业提升付费,而不是把这看成一个低价值的调度器功能。 · 随着跨客户运行数据积累,站点级预测精度会显著提升,从而相对自研工具形成可防守优势。 |
| 收入来源 | 按波动供电 AI 产能托管 MW 计价的年度平台订阅。 · 按通过平台排期或签约的弹性 GPU-hour 计费的用量收入。 · 首站点部署的实施与集成费用。 · 预测、SLA 报告和组合基准测试的高级分析模块。 |
|---|---|
| 价值单位 | 波动供电 AI 产能的托管 MW。 |
| 目标毛利率 | 70% |
| 扩张杠杆 | 从一个试点站点扩展到同一运营商内部更多 MW 与更多站点。 · 在预测被信任后,再追加准入控制与商业策略模块。 · 随着基准数据改善,从批量训练扩展到更多能容忍中断的工作负载类别。 · 在形成多站点数据后,向现有运营商客户销售基准和规划分析。 |
| 北极星指标 | 来自托管波动供电站点、并在承诺完工窗口内交付的已签约弹性 GPU-hour。 |
|---|---|
| 输入指标 | 处于活跃预测中的托管 MW。 · 承诺 GPU-hour 与实际交付 GPU-hour 之间的预测误差。 · 相对部署前基线的可销售利用率提升。 · 高价值队列的 SLA 失约率。 · 弹性队列填充率与复购率。 · 付费试点转生产的转化率。 |
| 待构建护城河 | 把站点电力边界、队列结构和 GPU 实际吞吐连起来的专有数据集。 · 按工作负载类别打包高价值与弹性 AI 产能的商业策略模板。 · 可复用的集成能力,以及部署在常见集群控制平面之上的可安全回滚手册。 |
| 终止标准 | 如果前 3 个试点无法证明至少 10% 的可销售利用率提升,或无法在不增加高价值 SLA 失约的前提下显著降低超卖风险,这个切口就太弱。 · 如果没有任何运营商能在试点启动后的 12 个月内,转成一个有意义托管 MW 规模的生产合同,这个品类很可能要么太窄,要么太容易被内部消化。 · 如果买方始终要求先完整替换控制平面才愿意付款,这个产品对 pre-seed 阶段来说就会过于重集成。 |
里程碑
- 拿下 2 个共创客户,并至少把其中 1 个转成付费覆盖式试点。
- 证明一套只读部署可以提升可销售利用率或承诺可信度,同时不增加高价值 SLA 失约。
- 在常见集群控制栈之上交付一条可复用的集成路径,并完成面向生产的安全能力包。
- 把第一个试点转成年付生产合同,并明确托管 MW 的扩张路径。
- 达到 3–4 个生产客户,以及大约 30–40 MW 的活跃托管规模。
- 为生产客户上线弹性工作负载的带保护准入控制。
- 至少证明一个客户从首站点扩展到更多 MW 或第二站点。
- 在多次部署之间建立关于预测准确率和中断容忍度的内部基准。
- 达到研究中第 3 年约 80 MW 托管规模的目标。
- 在其滩头细分市场里,把公司建立成第三方波动供电 AI 站点的默认商业化软件层。
- 在保持中立控制平面定位的前提下,把产品扩展到组合级规划和基准测试。
flowchart LR Wedge[波动供电站点上线切口] --> MVP[只读预测与弹性队列 MVP] MVP --> Proof[先证明预测准确率、利用率提升和首个付费试点] Proof --> Expansion[准入控制、多站点扩展与基准测试]
创始团队
| 角色 | 入职时间 | 理由 |
|---|---|---|
| 创始工程师 | 第 0 个月 | 负责预测引擎、遥测接入、策略逻辑和首批运营商集成。 |
| 创始人/CEO | 第 0 个月 | 必须由创始人亲自推进,才能在高度集中的技术买方群体里完成销售和共创客户获取。 |
| 创始产品/基础设施负责人 | 第 0 个月 | 负责把运营商工作流、试点指标和调度器集成细节连起来,确保路线图始终围绕商业验证展开。 |
| 集成 / 解决方案工程师 | 第 4-6 个月 | 一旦试点启动,就需要有人专门处理调度器集成、部署安全和客户定制遥测映射,避免拖慢核心产品进度。 |
| 客户成功 / 实施负责人 | 第 9-12 个月 | 支持从试点到生产的转化,并在客户增加更多 MW 或更多站点时,沉淀可复制的上线流程。 |
实验路线图
| 阶段 | 实验 | 假设 | 成功指标 | 负责人 |
|---|---|---|---|---|
| 0–90 天 | 访谈 12–15 家目标运营商和站点开发商,建立一份具名滩头账户名单,记录上线时间、MW 规模和买/建偏好。 | 市场中存在足够多即将落地的波动供电站点,能在未来 12 个月支撑至少 3 个付费试点机会。 | 至少 10 个合格目标账户和 3 个活跃的试点范围讨论。 | 创始人/CEO |
| 0–90 天 | 做一个仿真或 shadow mode 原型,把样本电力边界变化转换成修正后的可销售 GPU-hour 预测和弹性层建议。 | 在产品触碰实时准入控制前,运营商就会从预测与打包能力中看到明确商业价值。 | 至少 2 个共创客户认可原型足够有价值,愿意推进付费覆盖式试点范围。 | 创始工程师 |
| 3–6 个月 | 在一个真实在线集群上运行首个付费覆盖式试点,提供预测看板、弹性队列策略规则,以及与人工规划的事后对比。 | 产品能在不增加高价值 SLA 失约的前提下,提高安全的可销售利用率。 | 试点窗口内,可销售利用率至少提升 10%,或等价地显著降低超卖风险,同时高价值队列 SLA 失约不增加。 | 创始产品/基础设施负责人 |
| 6–12 个月 | 在首个有望转生产的客户处,为弹性工作负载增加带保护机制的准入控制建议或自动化。 | 一旦覆盖层的价值被证明,运营商会信任针对非高价值任务的有限控制路径自动化。 | 第一个客户授权至少一种弹性工作负载类别进入生产使用,并签下年合同。 | 集成 / 解决方案工程师 |
| 12–18 个月 | 在早期工作负载类型和站点之间,对中断容忍度、价格敏感度和完工窗口接受度做基准测试。 | 跨客户数据会揭示出可重复的弹性产能产品模板,从而提高赢单率和预测质量。 | 形成一份内部基准,被至少 2 笔扩张交易采用,并证明其预测精度优于单站点人工规则。 | 创始人/CEO |
风险评估
- R1具备商业价值的波动供电 AI 站点数量可能太少,无法支撑 ARR 快速增长。 — 把销售范围扩大到所有有相同商业化问题的受电力约束或分阶段送电 AI 站点,而不只是海上部署。
- R2运营商可能不愿意让一家创业公司进入调度控制路径。 — 从只读预测和弹性打包切入,先在非高价值工作负载上证明价值,再逐步增加自动化。
- R3垂直整合供应商或内部团队可能会把这项功能吸收掉。 — 聚焦中立的第三方运营商,并持续积累难以快速复制的预测与商业化数据集。
- R4弹性产能需求深度可能不足,无法支撑定价模型。 — 尽早验证可容忍中断的工作负载类别,并围绕具体的完工窗口偏好调整产品打包。
| 风险 | 可能性 | 影响 | 缓解措施 |
|---|---|---|---|
| 具备商业价值的波动供电 AI 站点数量可能太少,无法支撑 ARR 快速增长。 | High | High | 把销售范围扩大到所有有相同商业化问题的受电力约束或分阶段送电 AI 站点,而不只是海上部署。 |
| 运营商可能不愿意让一家创业公司进入调度控制路径。 | High | High | 从只读预测和弹性打包切入,先在非高价值工作负载上证明价值,再逐步增加自动化。 |
| 垂直整合供应商或内部团队可能会把这项功能吸收掉。 | Medium | High | 聚焦中立的第三方运营商,并持续积累难以快速复制的预测与商业化数据集。 |
| 弹性产能需求深度可能不足,无法支撑定价模型。 | Medium | Medium | 尽早验证可容忍中断的工作负载类别,并围绕具体的完工窗口偏好调整产品打包。 |
| 标题 | 波动供电 neocloud 的产能负责人 |
|---|---|
| 画像 | 一家北美 GPU 云创业公司,正在建设首个 20–50 MW 站点,供电来自分阶段送电或并不平稳的表后电力,并向外部客户销售批量训练产能。 |
| 触发点 | 站点接近上线,销售团队想签约产能,而运营团队还无法有把握地承诺平稳、始终在线的交付。 |
| 买方 | 基础设施副总裁 |
| 初始合同 | 假设在单个站点签下 $75k–$150k 的付费试点;一旦运营商证明能安全提升利用率,再按托管 MW 和弹性 GPU-hour 规模转为年度生产定价。可信的早期生产合同年化区间大约在 $300k–$800k,取决于在线 MW 和使用量。 |
必须成立的条件
- 目标地域在未来 24 个月内,至少会有 5–10 个非超大云厂商的波动供电 AI 站点成为有商业价值的买方。
- 运营商愿意先为只读预测和弹性产能层付费,而不是一上来就要求替换完整调度器,或完全内部自建。
- 至少有一种早期工作负载类别——如批量训练或离线推理——能接受足够大的完工窗口,从而形成可重复的弹性需求。
- 平台能足够提升可销售利用率或承诺可信度,从而支撑大约 $60k–$70k 每 MW 每年的定价。
- 早期部署会产生持续改善预测和商业化能力的数据,并且长期明显优于人工规划和通用调度规则。
待尽调问题
- 未来 24 个月上线或已获资的站点里,究竟有多少真的符合这个滩头画像,以及第三方软件采购模型?
- 要让基础设施负责人先信任覆盖模式、再信任准入控制,这个产品需要拿出怎样的量化证据?
- 为什么像 Crusoe 这样的垂直整合供应商,或内部扩展调度器的方案,不会默认先拿下第一单?
- 哪些工作负载类型能在不过度增加客户支持负担的情况下,带来最高的早期弹性队列填充率?
- 按托管 MW 定价是否真的符合买方预算方式,还是他们会坚持纯用量计费或打包式服务?
| 结论 | 观察 |
|---|---|
| 信心 | 中低信心,因为产品切口很锋利、时点也对,但第一波买方池和独立市场规模都可能偏小,除非扩张速度快过现在的谨慎假设。 |
| 相信的理由 | 受电力约束的 AI 基础设施已经从故事变成项目,而一层中立软件把波动的 MW 变成可签约算力产品,确实卡住了通用调度器解决不了的运营痛点。 |
| 怀疑的理由 | 现有输入仍没把两个核心问题说透:未来是否会有足够多的第三方波动供电站点很快上线;以及运营商到底会买中立软件、自己做,还是直接转向垂直整合供应商。 |
| 下一步尽调 | 在公司要求更深控制平面权限之前,先确认至少有两家目标运营商愿意为这层覆盖式试点付费,而且它们的波动供电集群已经上线或即将上线。 |
财务模型
| 第 1 年收入 | $495K EBITDA $-658K · 期末现金 $1.34M |
|---|---|
| 第 2 年收入 | $1.93M EBITDA $-498K · 期末现金 $844K |
| 第 3 年收入 | $4.18M EBITDA $353K · 期末现金 $1.20M |
| 年 ARPU | $660K |
|---|---|
| 毛利率 | 70% |
| CAC | $301K 回本期 7.8 个月 |
| LTV / CAC | 8.5x 生命周期价值 $2.57M |
| 轮次 | 种子前轮 · $2.0M |
|---|---|
| 跑道 | 30 个月 |
| 里程碑 | 达到 4 个生产客户和约 40 MW 托管规模,交付面向弹性工作负载的带保护准入控制,并在 seed 融资前拿出首个多站点扩张案例。 |
模型合理性
- 收入引擎. 基准情景的增长来自活跃运营商从 2 家扩到 8 家,每家约托管 10 MW,对应每家约 $660K 的混合年收入。
- 必须顺利发生的事. 首批付费试点必须在大约两个季度内转正,公司才有机会在 Y2 结束前达到 4 个生产客户和约 40 MW 托管规模。
- 模型会失效的情况. 如果滩头管线最终只能支撑 6 家活跃运营商,或毛利率停留在高 60% 区间,downside 情景的现金会在 seed 里程碑验证前逼近底线。
- 下一轮融资证明. 当公司达到 4 个生产客户、市场里已有带保护准入控制模块,并拥有至少一个多站点扩展案例时,才足以支撑 seed 融资。
- 营收(线/面积)
- 期末现金(虚线)
- EBITDA(柱,灰色为亏损)
- 创始人/CEO
- 工程
- 产品/基础设施
- 解决方案工程师
- 客户成功/实施
- 销售
- G&A/财务
| 第3年营收 | 第3年 EBITDA | 现金最低点 | 说明 | |
|---|---|---|---|---|
| 下行 | 试点转正晚了一季度,一次原计划站点扩展没能成交,收入结构也更偏向核心托管 MW 定价,而不是混合打包。 | |||
| 基准 | 创始人主导的第 1 年拿下两家产生收入的运营商;第 2 年做到 4 个生产客户 / 约 40 MW;第 3 年扩到 8 个活跃运营商 / 约 80 MW。 | |||
| 上行 | 第一家生产客户扩张更快,可引用案例把销售周期压短,而且在不明显增加固定成本的前提下,Y3 又多拿下一家运营商。 |
| 变量 | 下行 | 上行 | 现金影响 | 营收影响 |
|---|---|---|---|---|
| 销售周期 | 由于安全和运维审查拉长,试点转生产延后约 1 个季度 | 可引用客户把新 logo 销售周期缩短约 1 个季度 | ||
| ARPU | 每个客户混合年收入 $600K | 每个客户混合年收入 $720K | ||
| CAC | 由于第一位销售需要更多现场时间和客户背书,CAC 升至约 $340K | 依靠案例驱动销售,CAC 保持在约 $260K | ||
| 招聘节奏 | 在可复制性尚未证明前,就提前招聘第二位 AE 和额外工程师 | 一位非核心岗位延后到 Q4Y2 转正目标达成后再招 | ||
| 流失率 | 月流失率走向 2.5%,Y3 结束时少留住 1 家运营商 | 月流失率接近 1.0%,续约和扩张都表现强劲 | ||
| 毛利率 | 因实施仍然偏服务化,毛利率维持在 67% | 因集成更干净、支持负担更低,毛利率提升到 72% |
情景
| 情景 | 第 3 年收入 | 第 3 年 EBITDA | 现金低点 | 说明 | 关键变化 |
|---|---|---|---|---|---|
| 下行 | $3.13M | $-186K | $214K | 试点转正晚了一季度,一次原计划站点扩展没能成交,收入结构也更偏向核心托管 MW 定价,而不是混合打包。 |
|
| 基准 | $4.18M | $353K | $827K | 创始人主导的第 1 年拿下两家产生收入的运营商;第 2 年做到 4 个生产客户 / 约 40 MW;第 3 年扩到 8 个活跃运营商 / 约 80 MW。 |
|
| 上行 | $4.95M | $920K | $910K | 第一家生产客户扩张更快,可引用案例把销售周期压短,而且在不明显增加固定成本的前提下,Y3 又多拿下一家运营商。 |
|
敏感性
| 变量 | 下行情景 | 基准情景 | 上行情景 |
|---|---|---|---|
| ARPU | 每个客户混合年收入 $600K | 每个客户混合年收入 $660K | 每个客户混合年收入 $720K |
| CAC | 由于第一位销售需要更多现场时间和客户背书,CAC 升至约 $340K | 预测 CAC 约为每个净新增运营商 $301K | 依靠案例驱动销售,CAC 保持在约 $260K |
| 流失率 | 月流失率走向 2.5%,Y3 结束时少留住 1 家运营商 | 月流失率维持在 1.5%,扩张足以抵消早期 logo 风险 | 月流失率接近 1.0%,续约和扩张都表现强劲 |
| 销售周期 | 由于安全和运维审查拉长,试点转生产延后约 1 个季度 | 试点转生产大致能保持在价值证明后的 2 个季度内 | 可引用客户把新 logo 销售周期缩短约 1 个季度 |
| 毛利率 | 因实施仍然偏服务化,毛利率维持在 67% | 毛利率达到商业计划中的 70% 目标 | 因集成更干净、支持负担更低,毛利率提升到 72% |
| 招聘节奏 | 在可复制性尚未证明前,就提前招聘第二位 AE 和额外工程师 | 招聘节奏严格围绕试点、转正和多站点验证里程碑推进 | 一位非核心岗位延后到 Q4Y2 转正目标达成后再招 |
关键假设 (30)
| ID | 名称 | 数值 | 单位 | 来源 |
|---|---|---|---|---|
| A1 | 模型起始月份 | 2026-06 | 月 | [business-plan.yaml date] 创业财务经验法则:从计划日期后的第一个完整月份开始 |
| A2 | M1 期初现金 | 2000 | USDK | [business-plan.yaml fundingAsk.targetFundingRangeUsd] 取已表述 $2–4M pre-seed 区间下限,因为基准情景在现金跌破约 $0.8M 前就能跑到下一阶段里程碑 |
| A3 | 每个活跃运营商成熟后的托管 MW | 10 | MW/customer | [research.yaml market.som] 将第 3 年 80 MW 的 SOM 映射为基准情景下 8 个活跃运营商 |
| A4 | 每个成熟客户的混合年收入 | 660 | USDK/year | [business-plan.yaml gtm.pricing; businessModel.revenueStreams; research.yaml bottomUpSizingDrivers] 10 MW x 约 $60K/MW-year,再叠加约 10% 的用量费和分析增收 |
| A5 | 落地月份确认收入比例 | 50 | 百分比 | 创业财务经验法则:企业试点和首次生产爬坡通常平均从月中开始 |
| A6 | 付费活跃客户爬坡 | 2 by Y1 / 4 by Y2 / 8 by Y3 | customers | [business-plan.yaml milestones; research.yaml validationPlan] 在已表述的 4–8 个早期商业部署和第 3 年 80 MW 目标范围内的保守路径 |
| A7 | 毛利率目标 | 70 | 百分比 | [business-plan.yaml businessModel.targetGrossMarginPct] |
| A8 | 创始人/CEO 全成本年现金支出 | 144 | USDK/year | 创业财务经验法则:$120K 现金薪资,加 20% 工资税和福利 |
| A9 | 工程师全成本年现金支出 | 180 | USDK/year | 创业财务经验法则:GPU 基础设施人才按 $150K 薪资,加 20% 工资税和福利 |
| A10 | 产品/基础设施负责人全成本年现金支出 | 168 | USDK/year | 创业财务经验法则:$140K 薪资,加 20% 工资税和福利 |
| A11 | 解决方案工程师全成本年现金支出 | 156 | USDK/year | 创业财务经验法则:$130K 薪资,加 20% 工资税和福利 |
| A12 | 客户成功 / 实施负责人全成本年现金支出 | 132 | USDK/year | 创业财务经验法则:$110K 薪资,加 20% 工资税和福利 |
| A13 | 销售 AE 全成本年基础支出 | 168 | USDK/year | 创业财务经验法则:$140K 底薪,加 20% 工资税和福利;佣金另行建模 |
| A14 | G&A / 财务全成本年现金支出 | 120 | USDK/year | 创业财务经验法则:$100K 薪资,加 20% 工资税和福利 |
| A15 | R&D 非人员支出 | 10 in Y1, 12 in Y2, 14 in Y3 | USDK/月nth | 创业财务经验法则:面向基础设施软件的云遥测、可观测性和安全工具 |
| A16 | 销售与市场非人员支出 | 6 in Y1, 8 in Y2, 10 in Y3 + 1.5 per AE + 8% of revenue | USDK/月nth | 创业财务经验法则:高触达企业销售所需的创始人差旅、客户背书、会议和佣金 |
| A17 | G&A 非人员支出 | 7 in Y1, 9 in Y2 pre-finance hire, 10 after finance hire, and 11 in Y3 | USDK/月nth | 创业财务经验法则:面向关键基础设施客户的法务、保险、审计和后台开销 |
| A18 | 首位解决方案工程师入职时间 | 第 5 个月 | 月 | [business-plan.yaml team] 试点启动后就需要集成 / 解决方案工程师 |
| A19 | 第二位工程师入职时间 | 第 9 个月 | 月 | 创业财务经验法则,结合 [business-plan.yaml milestones 0–12 个月],用于在首个转正前完成可复用集成和生产级安全能力包 |
| A20 | 首位客户成功负责人入职时间 | 第 10 个月 | 月 | [business-plan.yaml team] 客户成功 / 实施负责人在第 9–12 个月窗口入职 |
| A21 | 首位 AE 入职时间 | 第 14 个月 | 月 | [business-plan.yaml gtm.funnelTargets; team] 创业财务经验法则:只有在首个生产合同证明切口成立后,才增加专职销售 |
| A22 | 第三位工程师入职时间 | 第 16 个月 | 月 | [business-plan.yaml milestones 12–24 个月] 支撑带保护的准入控制和多站点基准数据接入 |
| A23 | 财务 / 合规负责人入职时间 | 第 22 个月 | 月 | 创业财务经验法则,结合 [business-plan.yaml milestones 12–24 个月],因为当客户达到 3–4 家生产部署后,会需要更完整的供应商管理和财务运营 |
| A24 | 第四位工程师入职时间 | 第 22 个月 | 月 | [business-plan.yaml milestones 24–36 个月] 支撑组合级分析和第二站点扩展准备 |
| A25 | 第二位客户成功负责人入职时间 | 第 28 个月 | 月 | 创业财务经验法则,结合 [business-plan.yaml milestones 24–36 个月],对应客户增加更多 MW 或第二站点 |
| A26 | 第二位 AE 入职时间 | 第 31 个月 | 月 | 创业财务经验法则:只有在形成可引用的生产部署后,才增加第二位销售 |
| A27 | 用于单位经济模型的稳态月流失率 | 1.5 | 百分比 | 创业财务经验法则:保守估计早期企业基础设施软件的续约风险 |
| A28 | 混合 CAC | 300.8 | USDK/customer | 由 Y2–Y3 销售与市场支出预测 $1.805M 除以 6 个净新增活跃运营商计算得出 |
| A29 | 现金回收时点 | 当期回款 | policy | 创业财务经验法则;但需特别标记,因为基础设施运营商仍可能按 45–60 天账期付款 |
| A30 | 融资需求 | 2.0 | USDM | [business-plan.yaml fundingAsk] 与已表述区间下限对齐,同时在基准情景下保留高于 $0.8M 的现金安全垫 |
flowchart LR 目标账户 --> 付费试点 付费试点 --> 托管MW 托管MW --> 生产客户 生产客户 --> 收入 收入 --> 毛利润 毛利润 --> 现金
警示项: 初始 SAM 仍然很窄,所以基准情景要求公司在 Q4Y3 前,从数量有限的北美波动供电运营商部署中拿下 8 家。 · 收入按每个运营商的混合 ARPU 建模,没有把订阅、用量和实施三部分合同结构单独拆开。 · 现金回款按当期收款假设,但基础设施运营商仍可能走 45–60 天账期,这会明显压缩基准情景的现金缓冲。 · 从 Y2 开始维持 70% 毛利率,隐含前提是站点集成已经显著变得可复用,而不是持续维持高服务化。
主要风险
- 市场起量仍早. 今年真正投入生产的波动供电 AI 集群也许还太少,无法支撑初期 ARR 快速增长。 缓解措施: 起步阶段覆盖所有表后供电或弃电型 GPU 站点,而不是只盯海上部署,同时保持同一套产品架构。
- 集成阻力. 基础设施团队可能不愿意在关键集群运行链路里插入一层新的控制软件。 缓解措施: 先以只读预测和弹性队列产品切入,建立信任后再接管准入控制。
- 客户可能更偏好固定电力合同. 如果操作取舍太复杂,企业买家可能会回避弹性产能。 缓解措施: 早期销售聚焦批量训练、回填任务和离线推理,这些场景里价格优势通常明显大于时间灵活性的代价。
证据
引用来源 (35)
- Tech Startups. 获 Peter Thiel 支持的 Panthalassa 融资 $140M,用波浪能建设漂浮式 AI 数据中心 - Tech Startups · https://techstartups.com/2026/05/05/peter-thiel-backed-panthalassa-raises-140m-to-build-wave-powered-floating-ai-data-centers
- OfficeChai. Peter Thiel 领投 Panthalassa 的 $140 Million 融资,用于在海上建设 AI 数据中心 · https://officechai.com/ai/peter-thiel-leads-140-million-investment-in-panthalassa-to-build-ai-datacenters-in-the-sea
- AWS. 比按需价格最高节省 90%——Amazon EC2 Spot Instances – Amazon Web Services · https://aws.amazon.com/ec2/spot
- AWS. 为 ML 工作负载预留 GPU 实例——Amazon EC2 Capacity Blocks for ML – AWS · https://aws.amazon.com/ec2/capacityblocks
- AWS. Amazon EC2 Spot 最佳实践 - Amazon Elastic Compute Cloud · https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/spot-best-practices.html
- Google Cloud. Spot VMs | Compute Engine | Google Cloud 文档 · https://docs.cloud.google.com/compute/docs/instances/spot
- Google Cloud. Batch:让批处理计算更简单 | Google Cloud · https://cloud.google.com/batch
- Microsoft Learn. 关于 Azure Spot Virtual Machines - Azure Virtual Machines | Microsoft Learn · https://learn.microsoft.com/en-us/azure/virtual-machines/spot-vms
- Microsoft Learn. 概览 - Azure CycleCloud | Microsoft Learn · https://learn.microsoft.com/en-us/azure/cyclecloud/overview?view=cyclecloud-8
- SchedMD. Slurm Workload Manager - 概览 · https://slurm.schedmd.com/overview.html
- SchedMD. Slurm Workload Manager - 节能指南 · https://slurm.schedmd.com/power_save.html
- Kueue. 概览 | Kueue · https://kueue.sigs.k8s.io/docs/overview
- Kueue. 公平共享 | Kueue · https://kueue.sigs.k8s.io/docs/concepts/fair_sharing
- Kubernetes. Pod 优先级与抢占 | Kubernetes · https://kubernetes.io/docs/concepts/scheduling-eviction/pod-priority-preemption
- NVIDIA. NVIDIA Base Command Manager | AI 与 HPC 集群管理软件 · https://www.nvidia.com/en-us/data-center/base-command-manager
- Lambda. AI Cloud 定价 | GPU 算力与 AI 基础设施 | Lambda · https://lambda.ai/pricing
- Lambda Docs. 使用 Lambda 的托管 Slurm - Lambda Docs · https://docs.lambda.ai/public-cloud/1-click-clusters/managed-slurm
- Runpod. 定价 | Runpod · https://www.runpod.io/pricing
- Runpod Docs. Slurm 集群 - Runpod Documentation · https://docs.runpod.io/instant-clusters/slurm-clusters
- Crusoe. Crusoe Cloud AI 算力与推理定价 | NVIDIA 与 AMD GPUs · https://www.crusoe.ai/cloud/pricing
- Crusoe. Command Center:GPU 可观测性 + 编排 | Crusoe Cloud · https://www.crusoe.ai/cloud/command-center
- Crusoe. Crusoe 宣布在得州 Abilene 新建 900 MW AI 工厂园区,以支持 Microsoft AI 基础设施 · https://www.crusoe.ai/resources/newsroom/crusoe-announces-new-900-mw-ai-factory-campus-in-abilene-texas-to-support-microsoft-ai-infrastructure
- Crusoe. Form Energy 与 Crusoe 达成协议,为 AI 数据中心提供 12 Gigawatt-Hours 铁空气电池 · https://www.crusoe.ai/resources/newsroom/form-energy-crusoe-announce-agreement-for-12-gigawatt-hours-of-iron-air-batteries-for-ai-data-centers
- Soluna. 面向 AI - Soluna · https://www.solunacomputing.com/for-ai
- Soluna. Project Kati 常见问题 - Soluna · https://www.solunacomputing.com/blog/kati-faqs
- Soluna. 1 Gigawatt 能驱动什么:可再生计算的新纪元 - Soluna · https://www.solunacomputing.com/blog/1gw
- U.S. Department of Energy. 数据中心与服务器 | Department of Energy · https://www.energy.gov/cmei/buildings/data-centers-and-servers
- ENERGY STAR. 数据中心设备 | ENERGY STAR · https://www.energystar.gov/products/data_center_equipment
- Crusoe. Crusoe Cloud | AI 平台与服务 · https://www.crusoe.ai/cloud
- Google Cloud. 加速器优化机型 | Compute Engine | Google Cloud 文档 · https://docs.cloud.google.com/compute/docs/accelerator-optimized-machines
- AWS. 高效批处理——AWS Batch – AWS · https://aws.amazon.com/batch
- Google Cloud. GPU 定价 | Google Cloud · https://cloud.google.com/compute/gpus-pricing
- Microsoft Azure. Spot Virtual Machines——Spot 定价与特性 | Microsoft Azure · https://azure.microsoft.com/en-us/products/virtual-machines/spot
- Lambda. AI Cloud 平台 | Lambda · https://lambda.ai/cloud
- Crusoe. Crusoe Energy | 面向 AI 云的能源优先创新 · https://www.crusoe.ai/energy