给 long-context LLM 任务用的调度中间件——智能做批处理和路由,不换新硬件也能把推理成本砍掉 60%。
给大文档语料做生产级 agentic 系统和 RAG pipeline 的 ML 工程团队,随着上下文窗口超过 32k tokens,推理成本迅速膨胀,延迟也越来越不可预测。vLLM 和 TGI 这类现有 serving 框架,本来是为短上下文、低时延在线请求优化的,并不原生支持对吞吐受限的 long-context 任务做批处理、分片和优先级调度。结果就是 GPU 被严重超配,任务队列一排就是好几个小时,还没有一套成本归因工具能把 token 花费对应回业务结果。
为何现在
- Fractile 在 2026 年 5 月拿到 Accel 和 Founders Fund 领投的 $220M,说明顶级投资人已经把推理吞吐视作 AI 基础设施的新主战场,也给软件层调度工具立住了买方叙事。
- Fractile 报出的 40 到 1,200 tokens/sec,把 30 倍吞吐缺口摆到了台面上;而在 Fractile 硬件还要 12–18 个月才普及之前,软件调度今天就能先吃下其中大约一半。
- 按照 Fractile 自己的对外说法,一些 long-context 推理任务在传统芯片上已经会跑上几周——这是企业 AI 团队此刻就在遇到的失效场景,也让软件补丁有了立刻的预算紧迫性。
- 资本开支正在明确从训练转向推理基础设施,Fractile 对自己后训练硬件定位就是证据——在专用芯片还没商业化之前,ML 团队最先愿意掏预算的,就是软件调度这一层。
催化因素。 Fractile 在 2026 年 5 月融到 $220M,把投资人和一线操盘者的共识彻底坐实:推理吞吐就是新战场。在下一代硬件距离全面可用还要 12–18 个月时,ML 团队已经在主动找软件层补丁。
创意
产品是一套云托管的推理调度控制平面,作为一层轻代理,部署在任何兼容 OpenAI 的端点前面。请求一进来,调度器先按上下文长度、优先级和截止时间给任务画像,再把它和兼容的在途请求动态拼批,并挑出既满足时延 SLA、又最便宜的端点。团队只要在代码里加一次 SDK 调用,马上就能在看板里看到单任务成本拆解、队列深度和吞吐指标。调度器的批处理引擎能把 GPU 利用率拉到 80% 以上,而行业里很多超配部署通常只有 30–40%。遇到截止时间宽松的任务——比如隔夜批量分析、大语料导入——调度器会自动切到可抢占算力,把实际单 token 成本再压低 60–70%。
差异化。 现有推理 serving 框架(vLLM、TGI、LiteLLM)盯的是在线请求的中位时延,默认每个请求都同样紧急;这款产品则第一次把“感知吞吐”的批处理调度和按 SLA 分层的优先级机制,专门做给 long-context 任务。和云厂商自带的 batch API 不同,它不绑模型,任何兼容 OpenAI 的端点都能接,包括私有基础设施上的自托管模型。按节省额分成的定价方式,也和工程团队的利益天然一致——他们得向 CFO 证明新工具值这个钱,但又不想先背一笔固定承诺。
| 滩头市场 | 先打 Series A–C 的 AI-native 创业公司(10–80 名工程师),它们已经把文档分析或代码审查 agent 跑到生产环境,常态处理 64k–200k token 上下文,而且每月推理花费已经超过 $30k |
|---|---|
| 切入点 | 一个可直接接入的 Python SDK 加云端控制平面,拦截推理请求,按上下文长度给任务画像,把兼容任务打包后发往最便宜的可用端点——接入不到 1 小时,单任务成本就能降 50–70% |
| 非显而易见洞察 | 推理瓶颈不只是硬件不够,核心更是调度问题。long-context LLM 任务本质上吞吐受限、适合批处理,和 HPC 负载很像,但主流推理框架却都把它当低时延在线请求来处理。Fractile 下注的是硬件;与之互补的软件层空白,是一层真正理解任务形态、上下文长度和 SLA 分层的调度器。纯软件创业公司现在就能吃下这个空白,不用自己造芯片。 |
| 风险投资级路径 | 先从 agentic 推理团队的调度 SDK 切入,再扩成完整的 inference FinOps 平台(成本归因、预算预警、容量规划),最后做成托管式多云推理 broker。等 Nvidia、Fractile 和云 TPU 这类异构推理硬件越来越多,它负责把复杂度全都抽掉。 |
| 主要用户 | Series A–C 的 AI-native 创业公司里的 ML 基础设施工程师;他们在生产环境运行 agentic pipeline,上下文窗口通常超过 32k tokens |
|---|---|
| 次要用户 | 正在导入 LLM 文档处理或法务审阅流程的中端企业平台工程负责人 |
| 经济买方 | 工程副总裁或 ML Infrastructure 负责人 |
| 首个客户 | 首个客户画像,是一家 30–60 人的 Series B AI-native 创业公司里的 ML Infrastructure 负责人。它的核心产品是文档审阅或代码分析 agent,当前在 AWS Bedrock 或 Azure OpenAI 上每月推理支出已达 $50k–$120k,也试过调 vLLM,但 100k+ token 任务还是会出现延迟尖峰。 |
|---|---|
| 购买触发点 | 触发购买的节点,要么是推理账单第一次超过 $50k,要么是 long-context 任务第一次因 SLA 违约引发客户升级投诉。 |
| 当前替代方案 | 现在的替代方案,是人工把 GPU 集群配得更宽,再配合自托管 vLLM 或 TGI、临时写的队列脚本,以及不断重谈云 GPU 预留实例。 |
| 切换理由 | 只要 30 分钟接入 SDK,就能马上看到任务级成本归因,还能把月账单砍掉 50%;相比之下,继续花几个月折腾 devops,而且还得买新硬件,显然不划算。 |
| 定价假设 | 先在 90 天 pilot 期按节省额抽成定价(拿到已验证推理成本降幅的 20%),之后切到每个 cluster 每月 $2,000–$8,000 的平台费,再叠加超出承诺量的按 token 收费。 |
待完成任务
| 任务 | 当前替代方案 | 成功指标 |
|---|---|---|
| 当推理账单冲破预算时,帮我看清到底是哪些任务在烧钱,这样我就能选择性延后低优先级批处理任务,同时守住面向客户请求的时延 SLA。 | 手工查看云成本看板,但看不到任务级颗粒度的花费 | 每月推理支出下降 50%,同时 SLA 关键请求的 P95 时延不变差 |
| 当我需要一夜之间处理 500 份文档、每份都有 100k-token 上下文时,帮我把负载智能排程并做批处理,这样我就不用再额外扩 GPU 容量,也能把这一轮跑完。 | 超配 H100 实例,再用 vLLM 默认调度器手工排队任务 | 用现有基础设施跑完整批任务,GPU 利用率超过 75%,单文档成本下降 60% |
flowchart LR Client[ML Engineer / Agent App] --> Proxy[Scheduling Proxy SDK] Proxy --> Profiler[Job Profiler\nContext Length and Priority] Profiler --> Batcher[Dynamic Batcher\nSLA-Tier Queue] Batcher --> Router[Endpoint Router] Router --> GPU1[Current GPUs\nH100 / A100] Router --> GPU2[Preemptible Compute\nSpot / Batch] GPU1 --> Dashboard[FinOps Dashboard\nCost Attribution] GPU2 --> Dashboard
- 信号 · 4/5Fractile 从顶级 VC 融到 $220M,直接验证了推理吞吐就是当前的硬约束;虽然只有单一来源,可信度受限,但信号本身很大,资金也足够重。
- 痛点 · 5/5推理成本和延迟已经在 AI-native 创业公司里引发预算升级和 SLA 违约;Fractile 自己披露“传统芯片上要跑几周”,说明在新硬件出货前,运营层面的痛感已经很重。
- 切入点 · 5/5可直接接入的 SDK、30 分钟集成时间、立刻可见的成本归因看板,这个切口具体、可验证,而且价值时刻就绑定在第一张月账单下降上。
- 防御性 · 3/5调度算法本身容易被学走;真正的防守会建立在专有任务形态数据、FinOps 集成锁定,以及 Fractile 等新加速器出货后形成的跨硬件路由优势。
- 规模化 · 4/5inference FinOps 和调度的 TAM 基本跟着整个 LLM 推理市场走;如果到 2028 年推理支出到 $50B+,哪怕只吃下其中 2%,再按 20% 节省抽成,也有 $200M+ ARR 的空间。
- GPU 云厂商(AWS、Azure、GCP),提供可抢占和预留算力接入
- 模型 API 提供商(OpenAI、Anthropic、Mistral),做端点兼容性测试
- ML 框架社区(vLLM、LiteLLM),帮助在开源生态里分发
- 开发并持续迭代任务画像和批处理引擎
- 打通 GPU 云厂商和模型托管 API
- 搭建成本归因与 FinOps 报告流水线
- long-context 任务形态的调度算法 IP 和批处理优化引擎
- 兼容 OpenAI 的代理基础设施,具备多区域低时延端点
- 深懂推理 serving 和 GPU 调度的 ML 工程团队
- long-context 任务推理成本下降 50–70%,不需要换硬件
- 通过可直接接入的 Python SDK,在 1 小时内完成接入,代理任何兼容 OpenAI 的端点
- 提供单任务成本归因和 FinOps 看板,替代看不清的云端推理账单
- 按 SLA 分层调度任务,消灭批量负载动辄数小时的排队尖峰
- 自助式 SDK 上手,附带 30 天免费 pilot
- 每月付费超过 $3k 的账户配专属 ML infra 成功经理
- 建一个给 ML 工程师交流调度配置和 benchmark 的 Slack 社群
- 通过 LinkedIn 和 AI Slack 社群,直接触达 AI-native 创业公司的 ML infra 负责人
- 开源一个 long-context 推理成本画像工具,做顶部漏斗的获客磁铁
- 靠免费 SDK 层走产品驱动增长,使用量到了阈值再升级
- 运行生产级 agentic pipeline、上下文超过 64k tokens 的 Series A–C AI-native 创业公司
- 每月在推理上花费超过 $30k、已把 LLM 用于文档处理的中端企业
- 调度控制平面和代理基础设施的云算力成本
- 懂调度算法和推理 serving 的 ML 工程师薪资
- 直销企业客户所需的客户成功和销售成本
- pilot 阶段按节省额抽成收费(拿已验证成本降幅的 20%)
- pilot 转正后,每个 cluster 每月收取 $2,000–$8,000 平台费
- 超出月度承诺量后,按 token 加收超额费用
市场
| TAM | $600.0M 自下而上估算:约 20,000 家全球组织已经有足够重的生产级 GenAI 负载,会在意调度器经济性;按每家约 $30k 年度控制平面预算估算,同时与一个 2025 年已超过 $100B 的 AI inference 市场做交叉验证,意味着调度器层拿走不到 1% 的软件切片就成立。 |
|---|---|
| SAM | $72.0M 估算值:北美和欧洲今天约有 3,000 支可触达的 AI-native 与企业团队,已经有 long-context 文档/代码负载,并愿意给优化/控制软件配约 $24k 年预算。 |
| SOM | $5.4M Y3 可触达情景:靠直销和开源导流,拿下 150 家客户,每家平均年支出约 $36k,主要集中在高推理支出团队。 |
高管要点
- long-context 推理已经是实打实的运营问题,但现有厂商大多给的是点状优化——batch API、prompt caching 或 provider-specific serving stack——而不是一套按上下文长度、SLA 和最便宜可行端点来分类任务的中立调度器 [18][2][4][40]。
- 最适合起步的买家,仍然是已经为生产推理付费的 ML infra 负责人,因为企业 AI 正从 pilot 走向规模化部署,而组织在扩实验和补治理这两件事上依然卡得很厉害 [11][13]。
- 竞争很激烈,但格局仍然分散:超大云卖吞吐预留,托管平台卖自己云上的更快推理,开源栈给原语;真正的空白,是跨 provider 的成本归因,加上对 long-context 任务做 SLA 感知路由 [1][30][9][16][28]。
- 技术 thesis 站得住,因为文献已经证明,持续批处理、prefix caching 和 prefill/decode 解耦都能带来明显增益;在 Fractile 或 Cerebras 这类定制芯片还没全面普及前,创业公司先把编排层商业化是可行的 [37][38][39][12]。
- 监管摩擦可控,但绝不轻:买家一旦把敏感文档路由到多个端点,就需要能审计的治理、区域控制和数据保护姿态,而不只是更低时延 [31][14][25][29]。
市场定义
这个市场指的是:服务于 long-context LLM 推理的控制平面软件,位于模型 API、自托管 runtime 和托管推理云之上。它给任务做形态画像、把兼容请求排队拼批、结合 batch/caching 感知做路由,并按工作负载归因支出。这个市场不包括通用模型托管,也不包括泛可观测性工具,除非它们明确在优化 long-context 批处理经济性和跨 provider 调度 [2][30][35][41]。
用户与买方
主要用户是 ML infrastructure 工程师和平台团队:他们在运营生产级的文档分析、代码分析或 agentic 工作流,提示词很长、截止时间也参差不齐。真正的经济买家通常是 Head of ML Infrastructure、VP Engineering,或对吞吐、时延和云 GPU 支出负责的中央平台 owner [11][13][9]。
购买触发点
- 当月度推理支出大到值得系统化地运营 batch、缓存和预留吞吐折扣,而不是再靠人工管理时,采购意愿会起来。 [1][29][4][16][36]
- 当 long-context 任务或隔夜文档批处理在现有 vLLM/TGI 栈上带来明显排队、解码变慢或尾时延失稳时,买方会开始找解法。 [19][9][5]
- 当管理层把推理视为下一个基础设施瓶颈,并在下一代硬件大规模落地前先拨预算做优化时,购买就会被推进。 [18][22][7][26]
支付意愿
市场已经接受为优化能力做明确价格分层。Anthropic 对 cache read 收费远低于基础输入价,AWS 和 Azure 都公开打出 50% 的 batch 折扣,Fireworks 对缓存 token 和 batch token 也给折扣,Together 则直接宣传 batch inference 成本低 50%。这给调度器留出了可信的预算空间——前提是它能证明自己在单一 provider 之外还能再多省一截 [4][1][29][16][36]。 [4][1][29][16][36]
品类动态
顺风因素
- 企业 GenAI 正从 pilot 走向规模化项目,真正需要优化推理运营的组织数量还会继续增加。
- 基础设施资本正从训练转向推理,这一点从 Fractile、Groq、Baseten 和 SambaNova/Intel 的信号都能看到。
- 云厂商和平台已经明确对 batch、cache 和 throughput 选项定价,这让买家越来越习惯按工作负载类别讨论节省空间。
逆风因素
- 一大块最容易拿的节省,本来就可以靠原生 provider 的 batch 或缓存功能吃到。
- 技术强的买家可以直接在开源栈上自建,降低他们为无差异路由逻辑付费的意愿。
- Governance and data-protection requirements can limit endpoint choice for the exact document-heavy workloads that most need cost optimization.
验证信号
- Fractile 的 $220M 融资,明确把推理时延定义成训练之后的下一个瓶颈。
- Baseten 和 Groq 都围绕推理基础设施拿到大额融资,说明这个类别还在持续吸资本。
- 云厂商和托管平台已经把 batch 与缓存折扣直接写进定价页,说明买家早就在按工作负载类别,而不只是模型质量,来优化成本。
- 社区和一线操盘材料里仍不断冒出 long-context 性能痛点和 continuous batching 的收益,说明这不是一个抽象问题。
监管与技术约束
- batch API 往往不支持工具调用或结构化输出这类交互能力,所以调度器能延后的工作,不能靠改变应用行为来硬做。
- prompt caching 的收益取决于前缀是否稳定,有时还依赖 session 亲和性或 replica locality,所以软件调度不能只看价格表,还得懂工作负载形态。
- 吞吐预留和区域部署模式高度 provider-specific,这会显著增加中立控制平面对配额、时延和驻留选项的归一化难度。
- 只要请求可能跨区域或跨模型提供方,敏感企业文档流就需要可审计的治理与数据保护控制。
竞争
竞争格局可以拆成四类。超大云(AWS、Azure、Vertex)在单一云里卖 batch、缓存和预留吞吐 [1][30][21]。Baseten、Fireworks、Together 这类托管推理平台,卖的是它们自己基础设施上的更快、更便宜推理 [9][16][36]。Anyscale、vLLM、LiteLLM、BentoML、KServe 这类开源编排层提供的是原语,但集成和策略工作仍然压在买家身上 [6][41][28][10][27]。Groq、Cerebras、SambaNova、Fractile 这类专用硬件厂商则把性能天花板继续往上抬,同时也让端点异构性更强,反而进一步强化了中立路由层的价值 [22][12][26][18]。
| 竞争对手 | 阶段 | 切入点 | 定价 | 优势 | 相对劣势 |
|---|---|---|---|---|---|
| AWS Bedrock | 现有厂商 | AWS 体系内原生的 batch inference、缓存定价和预留/预配云控制。 | 按 token 用量收费;支持模型的 batch 定价低 50%;预配吞吐通过客户团队报价。 | 企业采购路径成熟,日志、配额和周边 AWS 服务一体化。 | 主要优化留在 AWS 上的工作负载,不是面向跨云、自托管栈和新硬件的中立 broker。 |
| Baseten | 成长期 | 托管推理平台,把基础设施和 runtime 优化打包,卖稳定性、速度和成本。 | 公开 token 定价,另有按算力计费的专属部署和企业方案。 | 强生产导向、支持 self-host,且在推理赛道里品牌很强,最近也拿到新资金。 | 它希望客户把负载留在 Baseten,而不是在买家已使用的所有端点之间做路由。 |
| Fireworks AI | 成长期 | 高性能 serverless 与部署式推理,公开给出 cached token 与 batch 折扣。 | 公开 serverless 按 token 定价,cached-input 折扣 50%,batch 折扣 50%,也提供按 GPU 小时计费的按需价格。 | 速度/成本叙事清楚,针对重复前缀工作负载的 prompt caching 机制也成熟。 | 它仍然是单一执行场所,不是一个跨云和自托管集群的优化层。 |
| Together AI | 成长期 | 把 serverless、dedicated 和 batch inference 放在同一商业体系下的开源模型云。 | 公开按 token 定价,且对很多模型宣传 batch inference 成本低 50%。 | 模型目录广,对偏好开源模型的 AI-native 团队吸引力强。 | 它的经济激励是把更多流量留在 Together,而不是在多个 provider 之间做套利。 |
| Anyscale | 成长期 | 提供 Ray Serve 编排加 vLLM serving,适合愿意使用更可定制平台的团队。 | 企业导向的定制定价,公开页面未给出明确数字。 | 开源信誉强,面向高级团队的编排叙事也完整。 | 相比可直接接入的调度器,它的采用路径更重,而且成本归因与策略工作仍要客户自己补。 |
为什么现有厂商不会默认胜出
- 云平台. AWS、Azure 和 Vertex 越来越多地暴露 batch 与预留吞吐控制,但这些能力都长在云厂商自己的体系里,默认并不能解决跨 provider 调度或硬件无关的 FinOps。
- 托管推理平台. Baseten、Fireworks 和 Together 已经能把速度和成本效率卖出去,但它们的胜法是把工作负载留在自家栈里,而不是在多套栈之间替客户挑最便宜端点。
- 开源与自建. vLLM、LiteLLM、Ray Serve、BentoML 和 KServe 给了强团队足够多原始零件,但买家仍要自己设计路由策略、节省归因和可靠性运营。
- 专用推理硬件. Groq、Cerebras、SambaNova 和 Fractile 能把 tokens-per-second 抬高,但它们并没有解决“先分类工作负载、在多个端点间裁决、再按任务类型解释支出”这件事。
商业计划
Long Context Inference Scheduler 是一层给 AI 团队用的控制平面:当文档分析和代码分析负载已经先被 long-context 推理成本和排队拖住,而还没到必须上新硬件的时候,它先把问题扛下来。第一个客户画像,是 10–80 名工程师的 Series A–C AI-native 创业公司;它们每月已经在推理上花掉约 $50k–$120k,并且在 64k–200k token 任务上碰到了预算冲击或 SLA 失守。产品以可直接接入的 SDK 和代理切进来,按上下文长度、优先级和截止时间给请求分类,再把可延后的任务打包并路由到仍满足策略要求的最便宜端点。研究支持它先打一个聚焦市场,而不是一开始就讲大而全的推理平台故事:初始 long-context 控制平面类别的 TAM 约 $600.0M,SAM 约 $72.0M,Y3 SOM 约 $5.4M。买方逻辑站得住,因为云厂商、模型厂商和托管推理平台,已经把“为批处理、缓存和吞吐优化付费”这件事教育出来了,只是大多数工具仍绑在单一提供方,或者要求团队自己做不少平台工程。更稳妥的打法,是先打穿一个窄而深的工作流,在买家已经打开原生优化开关之后,仍证明自己能带来增量节省,再往更广的 inference FinOps 和多硬件 brokerage 扩。需要保持克制的地方也很清楚:超大云和开源的替代风险很强,敏感文档路由会碰到治理摩擦,而直接客户证据目前主要还是研究语料和 Fractile 融资这一条 headline catalyst。换句话说,这更像一套值得推进的运营型 thesis,且能被清晰证伪,还谈不上已经去完风险的基础设施投资。
问题
- 在 vLLM、TGI 或云模型 API 上跑 64k–200k token 文档/代码分析任务的 AI-native 团队,因为当前 serving stack 把 long-context 负载当成低时延请求来处理,最后只能超配 GPU、吞下队列尖峰,还看不清成本。
- 云厂商原生的 batch、缓存和预留吞吐控制,只能在单一栈里起作用;买家仍然缺一套中立系统,来判断哪些任务能延后、在策略约束下哪个端点最便宜,以及花出去的钱到底对应了哪类工作负载和业务价值。
解决方案
- 在兼容 OpenAI 的端点前部署一层轻代理和 Python SDK,让每个请求在执行前先按上下文长度、SLA 分层和截止时间完成画像。
- 先用 shadow mode 跑,再逐步放开受控路由,把兼容的 long-context 任务做批处理,把隔夜或低优先级任务导向更便宜的算力,并把任务级成本归因露出来,证明节省来自原生厂商特性之外的增量。
为什么我们会赢
- 滩头市场虽然窄,但痛得很急:买家手里已经有一张看得见的月账单,也能比采购一个大平台更快量出节省、排队减少和部署速度。
- 中立调度器可以架在 AWS、Azure、自托管 vLLM 栈和新硬件之上,而不是逼客户把负载迁到某一家厂商的商业栈里。
- 围绕上下文形态、截止时间松弛度、缓存复用和真实节省积累起来的专有遥测,能慢慢长成路由和策略护城河,而开源原语默认并不会沉淀这些东西。
| 滩头市场 | Series A–C 的 AI-native 创业公司,团队规模 10–80 人,已经把文档分析或代码分析 agent 跑到生产环境,常态处理 64k–200k token 上下文,而且每月推理支出超过 $30k。 |
|---|---|
| 切入点理由 | 这个切片现在就疼,技术买家也能很快装上代理,而且手里有足够多可延后或隔夜跑的任务,省钱效果很快能看出来。如果一开始就去打更广的企业 AI 方案、对时延极敏感的聊天场景,或全托管模型托管,就会在还没证明自己相对原生 batch 和缓存功能有增量价值之前,先背上安全审查、集成成本和更大的竞争面。 |
| 推进顺序 | 公司应该先从只读遥测和节省看板起步,再对一类受限的 long-context 任务开启策略路由,等 pilot 客户转正后,才加更广的 FinOps 控制和感知硬件的 brokerage。招聘和合作也要按这个顺序来:先把调度器核心搭起来,创始人亲自去卖给共创客户,等 pilot 到 production 的转化开始可复制后,再补 solutions、合作伙伴和更完整的合规封装。 |
| 暂不进入 | 面向终端交互场景、时延极敏感的聊天推理 · 全托管模型托管或 GPU 云转售 · 在策略控制尚未被验证前,就去做高敏感度的 EU 和 UK 文档路由场景 · 脱离 long-context 调度 ROI、泛泛讲企业可观测性定位 |
| 切入点 | 当 AI-native 创业公司的月度推理支出开始变得足够大,或一次 long-context SLA 失守引发高层关注时,把 90 天 pilot 卖给 Head of ML Infrastructure 或 VP Engineering;先在一个文档或代码分析工作流上用 shadow mode 跑,等节省和排队改善被验证后,再转生产。 |
|---|---|
| 渠道 | 创始人主导 outbound,直接找已经有明显推理支出的 AI-native 创业公司里的 ML infra 和平台负责人 · 把开源的 profiling 和 benchmark 工具分发到 vLLM、LiteLLM、Ray、BentoML 和 KServe 社区 · 等调度器切口验证出可复制需求后,再做云厂商、模型厂商和加速器合作 |
| 漏斗目标 | 目标账户到合格 pilot 20–30%,合格 pilot 到付费 pilot 50%+,付费 pilot 到 production 50%+,production 账户到可公开案例 50%+。 |
| 定价 | pilot 阶段按节省额抽成,让第一个买家能直接拿着真实账单来论证部署合理性;之后转成每个托管 cluster 每月约 $2k–$8k 的平台费,并按调度 token 量加收超额费用。这样第一份合同就直接绑定可测量的降本时刻,等调度器变成运营基础设施后,再切到更可预测的软件支出。 |
| MVP | MVP 是一套跑在 shadow mode、控制权有限的兼容 OpenAI 调度器:给任务做画像,量上下文长度和截止时间松弛度,推荐如何拼批、该往哪种更便宜的执行环境发,并在看板里展示已验证的工作负载级节省。它必须先兼容现有 vLLM、LiteLLM 或云 API 栈,不能一上来就要求买家把所有推理流量搬走。 |
|---|---|
| 6 个月 | 6 个月内,交付可用于生产的 SDK 埋点、shadow-mode 遥测、任务级成本归因、针对一类可延后 long-context 任务的策略控制,以及 2–3 个跑在真实文档或代码分析负载上的共创客户 pilot。 |
| 12 个月 | 12 个月内,扩到更多工作负载类别的写路径路由,补齐按提供方归一化的定价、区域和端点策略控制、对标原生 batch 与缓存功能的 benchmark 报告,并拿到第一批可复制的 production 转化。 |
| 24 个月 | 24 个月内,扩成更完整的 inference FinOps 与 brokerage 层:做容量规划、预留与 spot 的策略自动化,并在保持中立控制平面位置的前提下,跨异构云和专用推理硬件做路由。 |
| 关键押注 | 目标客户里,有足够多任务是可延后、适合批处理的,调度器才能在不伤关键时延路径的前提下省下真金白银。 · 相比把推理栈整体迁往单一托管平台,买家会更早接受以 shadow mode 部署一层中立代理。 · 即便买家已经把原生 batch 和缓存功能开起来,公司仍然能证明自己有增量节省,而不是只在对方还没用好原生功能时才有效。 · 对于第一波重文档客户来说,区域、提供方审批和审计日志这类治理控制足够顶住需求。 |
| 收入来源 | 按已验证推理支出降幅收取分成的 pilot 费用 · 按托管 cluster 或部署收取的经常性平台订阅费 · 针对高级 FinOps 控制、策略治理和多提供方 brokerage 的用量超额费与高级模块费 |
|---|---|
| 价值单位 | 托管推理 cluster 与被调度的 long-context 工作负载量 |
| 目标毛利率 | 70% |
| 扩张杠杆 | 客户完成第一批 long-context 部署后,在同一账户里扩更多工作负载和 cluster · 从路由与节省分析上探,卖更广的 inference FinOps 和策略控制 · 等治理和区域控制成熟后,从创业公司扩到更大的平台团队 |
| 北极星指标 | 在调度器控制下完成、且已验证实现成本节省并满足 SLA 的 long-context 任务数 |
|---|---|
| 输入指标 | 被监控工作负载中,被判定为可延后或适合批处理的比例 · 相对原生提供方特性的增量节省 · pilot 到 production 的转化率 · 被路由工作负载的 P95 时延达标率 · 从安装 SDK 到拿到第一份节省报告的中位时间 |
| 待构建护城河 | 跨提供方的遥测数据集:包括上下文长度、缓存复用、截止时间松弛度,以及每个已完成任务的真实成本 · 一套策略引擎和 benchmark 语料库,能回答原生 batch、缓存或专用硬件在什么场景下比默认路由更强,什么场景下并不会 · 和开源 serving stack 及提供方 API 的深度集成,把部署速度做到比客户内部自建更快 |
| 终止标准 | 前 20 个目标账户里,少于 5 个账户能找到至少 20% 的 long-context 量,且这部分量可信地可延后或可拼批。 · 在 5 个生产负载上的 benchmark,在客户已先启用原生 batch 和缓存功能后,仍做不到至少 15% 的增量节省。 · 前 4 个付费 pilot 里,少于 2 个能在 pilot 结束后 6 个月内转成 production 合同。 · 大多数合格机会里,安全或平台团队都拒绝把产品放进热路径,导致它始终只能做一个没有控制权的看板。 |
里程碑
- 在核心 AI-native 创业公司滩头市场签下 2–3 个共创客户
- 上线 shadow-mode 遥测和工作负载级节省看板
- 完成 5 组与原生 provider 功能的对照 benchmark
- 至少转出 2 个付费 pilot 和 1 个 production 客户
- 把 approved providers 和 regions 的策略路由标准化
- 在一类工作负载上跑通可复制的 pilot 到 production 转化
- 在现有账户里,从单一工作负载扩到更广的 inference FinOps 控制
- 建立初步的云厂商、模型厂商或加速器合作,扩大可覆盖端点
- 支持跨云、自托管集群和新型推理硬件的异构端点路由
- 建出可对外引用的 benchmark 语料库和策略数据集,让路由质量随时间提升
- 把客户群扩到更大的平台团队,以及少量治理要求更强的企业账户
- 靠灯塔客户里的多工作负载扩张,跑到建模中的 Y3 SOM 轨迹
flowchart LR Wedge[Long-context document and code workloads] --> MVP[Shadow-mode scheduler and savings dashboard] MVP --> Proof[Paid pilots with verified savings and SLA protection] Proof --> Expansion[Inference FinOps and multi-hardware brokerage]
创始团队
| 角色 | 入职时间 | 理由 |
|---|---|---|
| 创始人/CEO | Month 0 | 这个切口要靠创始人亲自卖和亲自做共创客户发现,因为买家痛点很细,得碰真实遥测,还要快速迭代定价。 |
| 创始工程师 | Month 0 | 在跑出可信 pilot 前,公司必须有人把 SDK、代理、路由策略引擎和第一版看板扛起来。 |
| 创始 ML 系统工程师 | Month 1 | benchmark、按 provider 调优,以及工作负载形态分析,是证明自己比原生基础设施功能多省出一截的核心。 |
| 产品工程师 | Month 4 | 等第一批 pilot 开始共享真实 trace,看板、策略控制和 operator workflow 就必须够得上 production。 |
| 解决方案工程师 | Month 6 | 只有当公司拿到可复制的付费 pilot 后,部署支持、安全审查和 ROI 埋点才会开始变成瓶颈。 |
实验路线图
| 阶段 | 实验 | 假设 | 成功指标 | 负责人 |
|---|---|---|---|---|
| 0–90 天 | 访谈 20 位 ML infrastructure 和平台负责人,并收集匿名化工作负载 trace,覆盖超过 64k tokens 的文档和代码分析任务。 | 目标滩头市场里,确实重复出现可延后任务、账单冲击和排队痛点,足以支撑一个聚焦调度器采购。 | 至少 8 个目标对象确认痛点已经值得单独列预算,至少 5 个愿意分享足够的遥测,帮助团队判断截止时间松弛度和任务形态。 | 创始人/CEO |
| 0–90 天 | 做出一版 shadow-mode SDK 和看板,在现有栈上量上下文长度、队列深度、provider 选择和工作负载级成本。 | 只要拿到第一份 benchmark 的时间够短,而且不拦截流量,买家会很快装上只读埋点。 | 两个共创客户能在 1 天内装好 SDK,并在 1 周内跑出可用的节省基线。 | 创始工程师 |
| 90–180 天 | 在 5 个生产负载上,与原生 batch 和缓存功能做受控对照测试。 | 一个真正理解任务形态的调度器,即便在 provider-native 优化之外,也还能多省出至少 15%。 | 5 个工作负载里有 3 个在不明显打破约定时延阈值的前提下,跑出至少 15% 的增量节省。 | 创始 ML 系统工程师 |
| 90–180 天 | 把两个 shadow-mode 账户转成付费 pilot,并只对隔夜或低优先级工作负载授予有限路由权。 | 只要看板把节省量清楚量出来,而且热路径风险被限制在一类工作负载内,买家就会愿意掏钱做 pilot。 | 签下 2 个付费 pilot,并且至少有 1 个工作负载在 kickoff 后 60 天内,从纯观察升级到受控路由。 | 创始人/CEO |
| 180–365 天 | 给敏感文档路由账户上线区域与 provider 策略控制,以及审计日志。 | 只要治理阻力能被压到可接受,团队就有机会在不放弃中立多端点 thesis 的前提下,拿下更大的合同。 | 3 个后期 prospect 通过带策略路由控制的安全审查,至少 1 个转成 production。 | 产品工程师 |
| 180–365 天 | 发布一个开源 profiling 工具和 benchmark 数据集,专门分析 long-context 工作负载的经济性。 | 在这个技术性很强的类别里,开源分发比花钱买顶部流量,更容易拉来合格 pipeline。 | 直接从开源渠道拿到 10 次合格 inbound 对话和 3 次 pilot 评估。 | 开发者关系 / 创始人 |
风险评估
- R1原生 batch、缓存和预留吞吐功能,在创业公司切入前就把大部分节省空间吃掉。 — 先拿原生控制做 benchmark,只在跨 provider 路由或工作负载分类仍能量出明显增量节省的场景里卖。
- R2平台团队不愿让一家创业公司的代理进推理热路径。 — 先从 shadow mode 起步,早期只对非关键工作负载开放有限路由权,并在扩权限前先把审计和回滚控制补齐。
- R3开源项目或客户内部平台团队会把基础调度原语自己补出来。 — 不要只在路由逻辑上硬拼,而是围绕上线速度、benchmark 问责、专有遥测和策略控制竞争。
- R4敏感文档工作流会触发 provider 审批、数据驻留或治理异议,压缩端点灵活性。 — 优先做敏感度较低、美国优先的账户,尽早上线 provider 和 region 策略控制,在这些控制被验证前不要大举扩向企业。
- R5滩头市场最终扩不成更广的 inference FinOps 或 brokerage 产品。 — 每个 pilot 都顺手验证扩张需求,埋点相邻买家请求,并在多工作负载扩张没坐实前保持克制招聘。
| 风险 | 可能性 | 影响 | 缓解措施 |
|---|---|---|---|
| 原生 batch、缓存和预留吞吐功能,在创业公司切入前就把大部分节省空间吃掉。 | High | High | 先拿原生控制做 benchmark,只在跨 provider 路由或工作负载分类仍能量出明显增量节省的场景里卖。 |
| 平台团队不愿让一家创业公司的代理进推理热路径。 | High | High | 先从 shadow mode 起步,早期只对非关键工作负载开放有限路由权,并在扩权限前先把审计和回滚控制补齐。 |
| 开源项目或客户内部平台团队会把基础调度原语自己补出来。 | Medium | High | 不要只在路由逻辑上硬拼,而是围绕上线速度、benchmark 问责、专有遥测和策略控制竞争。 |
| 敏感文档工作流会触发 provider 审批、数据驻留或治理异议,压缩端点灵活性。 | Medium | Medium | 优先做敏感度较低、美国优先的账户,尽早上线 provider 和 region 策略控制,在这些控制被验证前不要大举扩向企业。 |
| 滩头市场最终扩不成更广的 inference FinOps 或 brokerage 产品。 | Medium | High | 每个 pilot 都顺手验证扩张需求,埋点相邻买家请求,并在多工作负载扩张没坐实前保持克制招聘。 |
| 标题 | Series B AI-native 创业公司的 ML Infrastructure 负责人 |
|---|---|
| 画像 | 一家 30–60 人的创业公司,已经把文档审阅或代码分析 agent 跑到生产环境,处理 64k–200k token 上下文,并在云 API 或自托管推理上有看得见的月度支出。 |
| 触发点 | 月度推理支出跨过约 $50k,或一次 long-context 排队事故升级成面向客户的问题。 |
| 买方 | VP Engineering 或 ML Infrastructure 负责人 |
| 初始合同 | 先签 90 天付费 pilot,按已验证节省额的 20% 收费,实际区间大致在 $15k–$40k;转正后,1–2 个托管 cluster 加使用量超额费,对应约 $30k–$80k 年度经常性软件收入。 |
必须成立的条件
- 至少四分之一的合格目标账户,必须有足够多可延后的 long-context 工作,才能靠拼批和路由省钱,同时不打穿时延承诺。
- 即便客户已经启用当前提供方的原生 batch、缓存输入或预留吞吐功能,仍然要能看到至少 15% 的增量节省。
- 在大多数 pilot 里,shadow-mode 部署必须在 1 天内跑出第一版 benchmark 结果,并在 2 周内进入第一轮受控路由。
- 至少在最早几单付费 pilot 里,真正买单的人必须来自基础设施或平台预算,而不是实验性质的 AI 预算。
- 早期客户在首个工作负载被验证后,必须愿意扩到更广的 FinOps 或多提供方 brokerage;否则这个切口最后只会停在一个窄工具上。
待尽调问题
- 目标客户的 long-context 负载里,真正有截止时间弹性的比例是多少?又有多少是面向用户、时延极敏感的流量?
- 在客户把现有提供方的原生 batch、prompt caching 和预留吞吐都开足后,还剩多少节省空间?
- 为什么买家会装一层中立代理,而不是把更多流量直接迁去 Baseten、Fireworks、Together 或云厂商原生控制?
- 真实交易里,最先冒出来的治理阻力是什么:热路径可靠性、提供方审批,还是数据驻留?
- 单个工作负载能不能在不依赖重服务化定制部署的前提下,就落到 $30k–$80k 年支出?
| 结论 | 观察 |
|---|---|
| 信心 | 痛点真实,切口也顺,但在团队证明自己能在原生工具之外再多省出一截,并让买家接受热路径控制平面之前,判断仍应保持中等强度。 |
| 相信的理由 | 公司打的是一个明确预算 owner、一场可量化的成本事件,以及一个现有厂商今天只部分覆盖的跨提供方空白。 |
| 怀疑的理由 | 如果创业公司不能尽快拿到专有工作负载数据,并证明自己部署更快、问责更清楚,云厂商、托管推理平台和开源社区很快就会把大部分表层空间填平。 |
| 下一步尽调 | 下一步最关键的验证点,是在真实 long-context 负载上拿到 2 个付费 pilot:在原生优化已经打开的前提下,仍能跑出双位数增量节省,并最终转成年框合同。 |
财务模型
| 第 1 年收入 | $95K EBITDA $-1.02M · 期末现金 $1.98M |
|---|---|
| 第 2 年收入 | $818K EBITDA $-1.17M · 期末现金 $808K |
| 第 3 年收入 | $2.65M EBITDA $-393K · 期末现金 $416K |
| 年 ARPU | $60K |
|---|---|
| 毛利率 | 72% |
| CAC | $25K 回本期 7.0 个月 |
| LTV / CAC | 7.1x 生命周期价值 $180K |
| 轮次 | 种子前轮 · $3.0M |
|---|---|
| 跑道 | 30 个月 |
| 里程碑 | 在 Y2 末实现 25 个活跃付费部署、约 68% 毛利率、多个 production reference,并拿到足够的路由验证,为围绕可复制的 pilot 到 production 转化发起 seed 融资做准备。 |
模型合理性
- 收入引擎. 基准情景在 Q4Y3 达到 67 个活跃付费部署,混合年收入约 $60K/部署;大部分抬升来自 Year 1 之后 pilot 的重复转化。
- 必须跑顺的事. 产品必须持续证明自己比原生 batch 和缓存功能更省钱,净新增才能在 Y2 维持每季度 4–6 个、在 Y3 维持每季度 8–12 个。
- 模型会失效的条件. 如果定价滑向 $52K,且毛利率卡在 68% 左右,downside 情景会在下一轮融资逻辑坐实前把现金打到 0 以下。
- 下一轮融资证明点. 只有当公司在 Y2 末拿到 25 个活跃部署、约 68% 毛利率,以及能缩短销售周期的多个 production reference,下一轮融资才算站得住。
- 营收(线/面积)
- 期末现金(虚线)
- EBITDA(柱,灰色为亏损)
- FounderCEO
- PlatformEng
- MLSystemsEng
- ProductEng
- SolutionsEng
- Sales
- CustomerSuccess
- PartnershipsOps
| 第3年营收 | 第3年 EBITDA | 现金最低点 | 说明 | |
|---|---|---|---|---|
| 下行 | 原生厂商功能压缩定价空间,pilot 转化变慢,公司在进入 seed 轮前拿到的净付费部署更少。 | |||
| 基准 | 公司证明自己在原生工具之外仍能带来增量节省,定价维持在 BP production 区间中部,并把创始人主导销售和开源导流叠加起来。 | |||
| 上行 | benchmark 胜出与合作伙伴转介绍带来更快转化、更干净的部署经济性,以及更强的 seed-ready 增长故事。 |
| 变量 | 下行 | 上行 | 现金影响 | 营收影响 |
|---|---|---|---|---|
| CAC | CAC 为 $35K,因为 pilot 需要更多创始人和 solutions 时间 | 通过开源和合作伙伴来源 pipeline,把 CAC 压到 $20K | ||
| 销售周期 | pilot 到 production 周期 9 个月 | 有暖启动 reference 时周期 4–5 个月 | ||
| ARPU | 每个活跃部署的年收入 $52K | 每个活跃部署的年收入 $66K | ||
| 毛利率 | 稳态毛利率 68% | 稳态毛利率 75% | ||
| 招聘节奏 | 比计划提前两个季度新增 1 位销售和 1 位 CS | 把 1 个非关键 GTM 岗位延后到部署数超过 30 后再招 | ||
| 流失率 | 活跃部署月流失率 3.0% | 月流失率 1.5% |
情景
| 情景 | 第 3 年收入 | 第 3 年 EBITDA | 现金低点 | 说明 | 关键变化 |
|---|---|---|---|---|---|
| 下行 | $1.89M | $-1.02M | $-378K | 原生厂商功能压缩定价空间,pilot 转化变慢,公司在进入 seed 轮前拿到的净付费部署更少。 |
|
| 基准 | $2.65M | $-393K | $387K | 公司证明自己在原生工具之外仍能带来增量节省,定价维持在 BP production 区间中部,并把创始人主导销售和开源导流叠加起来。 |
|
| 上行 | $3.45M | $282K | $886K | benchmark 胜出与合作伙伴转介绍带来更快转化、更干净的部署经济性,以及更强的 seed-ready 增长故事。 |
|
敏感性
| 变量 | 下行情景 | 基准情景 | 上行情景 |
|---|---|---|---|
| ARPU | 每个活跃部署的年收入 $52K | 每个活跃部署的年收入 $60K | 每个活跃部署的年收入 $66K |
| CAC | CAC 为 $35K,因为 pilot 需要更多创始人和 solutions 时间 | CAC 为 $25.2K | 通过开源和合作伙伴来源 pipeline,把 CAC 压到 $20K |
| 流失率 | 活跃部署月流失率 3.0% | 月流失率 2.0% | 月流失率 1.5% |
| 销售周期 | pilot 到 production 周期 9 个月 | 混合周期 6 个月 | 有暖启动 reference 时周期 4–5 个月 |
| 毛利率 | 稳态毛利率 68% | 稳态毛利率 72% | 稳态毛利率 75% |
| 招聘节奏 | 比计划提前两个季度新增 1 位销售和 1 位 CS | 只有在 production proof point 出现后才新增岗位 | 把 1 个非关键 GTM 岗位延后到部署数超过 30 后再招 |
关键假设 (24)
| ID | 名称 | 数值 | 单位 | 来源 |
|---|---|---|---|---|
| A1 | 模型启动月份 | 2026-06 | 月 | [BP date 2026-05-14];模型假设 pre-seed 在计划日期后的下一个月完成交割。 |
| A2 | M1 起始现金 | 3000 | USDK | [BP fundingAsk $2-4M pre-seed];基准情景取区间中值 $3.0M,规模足以覆盖 Year-2 proof point 外加 6 个月缓冲。 |
| A3 | 模型中的客户单位 | 活跃付费部署 | definition | [BP businessModel unitOfValue managed inference cluster and workload volume];customersEop 代表已经产生经常性软件收入的付费 pilot 或 production 部署。 |
| A4 | 起始客户数(M1) | 0 | count | [BP milestones];design-partner 工作发生在付费部署之前。 |
| A5 | 每个活跃部署的混合年收入 | 60.0 | USDK | [BP firstCustomer initialContract $15k-$40k pilot and $30k-$80k production ARR];基准情景采用接近中位数的混合值,反映 pilot 和 production 账户并存后的平均水平。 |
| A6 | 新增客户的收入确认方式 | 按期间平均活跃客户数 | formula | 创业公司财务常用做法,并锚定 BP 的 pilot 到 production 节奏:每月或每季度收入按 ((期初客户 + 期末客户) / 2) × ARPU 建模。 |
| A7 | 第 1 年按月新增付费部署 | [0,0,0,1,0,1,0,0,1,0,0,1] | count | [BP milestones 0-12 个月];按节奏设计为拿下多个付费 pilot 和首个 production 转化,但不假设企业销售会迅速起量。 |
| A8 | 第 2 年按季度新增付费部署 | [4,5,6,6] | count | [BP milestones 12-24 个月;BP gtm funnelTargets;BP sequencingRationale];假设创始人亲自打单带来的口碑,加上开源导流的 inbound,能形成可复制但仍然偏窄的动作。 |
| A9 | 第 3 年按季度新增付费部署 | [8,10,12,12] | count | [BP market SOM 150 customers at ~$36k;BP expansionLevers];Y3 末达到 67 个活跃部署,仍明显低于陈述中的 SOM 上限。 |
| A10 | 毛利率爬坡 | 50% M1-M6;60% M7-M12;68% Y2;72% Y3 | 百分比 | [BP businessModel targetGrossMarginPct 70;BP risks on native vendor substitution and hot-path reliability];模型初期低于目标值,因为团队要先吞下基础设施和支持成本;随着路由和支持标准化,后续再抬升。 |
| A11 | 创始人/CEO 全负荷薪酬 | 150.0 | USDK 每年 per FTE | 创业公司财务经验值:美国 pre-seed infra 创始人拿略低于市场、但并非象征性的现金薪资。 |
| A12 | 平台工程师全负荷薪酬 | 170.0 | USDK 每年 per FTE | [BP team Founding eng];创业公司财务经验值,对应早期 AI infra 工程人才及其薪酬附加成本。 |
| A13 | ML 系统工程师全负荷薪酬 | 185.0 | USDK 每年 per FTE | [BP team Founding ML systems eng];创业公司财务经验值,对应 benchmark 和路由优化人才。 |
| A14 | 产品工程师全负荷薪酬 | 155.0 | USDK 每年 per FTE | [BP team Product engineer];创业公司财务经验值,对应早期全栈产品工程师及福利税费。 |
| A15 | 解决方案工程师全负荷薪酬 | 140.0 | USDK 每年 per FTE | [BP team Solutions engineer];创业公司财务经验值,对应部署与安全审查支持。 |
| A16 | 销售全负荷薪酬 | 160.0 | USDK 每年 per FTE | [BP GTM founder-led outbound and later repeatable motion];创业公司财务经验值,对应早期技术销售的固定加浮动薪酬。 |
| A17 | 客户成功全负荷薪酬 | 110.0 | USDK 每年 per FTE | 创业公司财务经验值,对应 pilot 转正后的 onboarding 和 reference-customer 支持。 |
| A18 | 合作与运营全负荷薪酬 | 130.0 | USDK 每年 per FTE | [BP channels and later partnerships];创业公司财务经验值,对应 Y3 后期支撑生态合作与内部扩张的运营岗位。 |
| A19 | 薪酬分摊规则 | 创始人 60% 计入 S&M、40% 计入 G&A;解决方案工程师 60% 计入 S&M、40% 计入 R&D;合作与运营 50% 计入 S&M、50% 计入 G&A;销售和客户成功 100% 计入 S&M;所有工程岗位 100% 计入 R&D | policy | [BP team role rationales;BP sequencingRationale];反映一支产品优先、创始人亲自销售、而且早期 GTM 很依赖部署支持的组织。 |
| A20 | 创始团队之外的招聘顺序 | 第 1 位销售 M10;第 2 位平台工程师 M16;第 1 位客户成功 M18;第 2 位销售 M21;合作与运营 M27;第 3 位销售 M30;第 2 位客户成功 M33 | timing | [BP team;BP milestones;BP sequencingRationale];只有在早期 pilot 和 production reference 出现后,才补 GTM 与客户覆盖。 |
| A21 | 非薪酬运营费用节奏 | S&M 月度 Y1 [4,4,4,5,5,6,6,7,7,8,8,9],季度 Y2-Y3 [33,36,39,42,45,48,51,54];R&D 月度 Y1 [12,12,12,14,14,15,15,16,16,17,17,18],季度 Y2-Y3 [57,60,63,66,69,72,75,78];G&A 月度 Y1 [6,6,6,6,6,7,7,7,7,8,8,8],季度 Y2-Y3 [27,30,33,36,39,42,45,48] | USDK | [BP operations;BP risks;Research regulatoryLandscape and distributionChannels];覆盖云工具、benchmark 基础设施、差旅、安全/法务工作和轻量管理费用。 |
| A22 | 净客户计划内含流失 | 单位经济里按 2.0% 月流失建模;A7-A9 展示的新增客户,是扣除预期流失和小幅扩张后的净活跃部署数。 | policy | 创业公司财务经验值,并锚定一个粘性还不错、但确实会掉 pilot 且面临 vendor 替代风险的 infra 产品。 |
| A23 | 混合 CAC | 25.2 | USDK per net new customer | 根据模型测算:Y2-Y3 销售与市场支出约 $1.59M,除以 63 个净新增活跃部署,得出该数值;与创始人主导 outbound 加开源分发的打法大体一致。 |
| A24 | 融资规模规则 | 跑到 Y2 里程碑再加 6 个月缓冲 | policy | 开发者指令;[BP fundingAsk] 这一轮融资按“跑到 Y2 末里程碑并再留 6 个月缓冲”来定,目标是在下一轮机构融资前,先把 pilot 到 production 的重复转化跑通。 |
flowchart LR Leads --> PaidPilots PaidPilots --> ActiveDeployments ActiveDeployments --> PlatformRevenue PlatformRevenue --> GrossProfit GrossProfit --> Cash
警示项: 模型在 Y1 仍要烧掉超过 $1.0M,Y2 再烧 $1.17M,因此执行风险高度集中在:要在现金跌破 $1M 前,证明 pilot 转化能更快。 · 由于 Y3 仍有不少 solutions 工作和部署支持,退出时每个 FTE 的收入只到 SaaS benchmark 的低端。 · Q4Y3 才是第一个 EBITDA 转正季度,所以只要转化节奏慢 1–2 个季度,融资时间点大概率就会被迫提前。 · 客户数按“扣除流失并包含小幅扩张后的净值”建模;如果真实毛流失超过 2.0% 这个经验值,且没有 upsell 抵消,Y3 收入会明显低于预期。
主要风险
- 云厂商反制. AWS、Azure 和 GCP 可能会把原生 long-context 批量调度直接打包进托管推理 API,12–18 个月内就把核心切口商品化。 缓解措施: 在任何单一云厂商推出竞争性 batch API 之前,先把多云和自托管模型兼容性做出来,并把护城河转到专有任务形态数据和云厂商难以复制的 FinOps 集成上。
- 开源替代. vLLM 或 LiteLLM 社区可能会把“感知吞吐”的批量调度做成开源能力,削弱商业产品的价值主张。 缓解措施: 把底层调度原语贡献给开源,拿它做分发渠道;同时把托管控制平面、成本归因引擎和多端点路由留在商业闭源层。
- 单一来源证据缺口. Fractile 的硬件性能说法(40 到 1,200 tokens/sec)还没有独立 benchmark 验证;如果这套硬件叙事被证明夸大,推理调度的紧迫信号也会变弱。 缓解措施: 在 Series A 之前,先靠 ML infra 访谈直接验证客户痛点;这个调度产品的价值,并不依赖 Fractile 硬件是否准时出货。
证据
引用来源 (40)
- AWS. Amazon Bedrock Pricing – AWS · https://aws.amazon.com/bedrock/pricing
- AWS. Process multiple prompts with batch inference - Amazon Bedrock · https://docs.aws.amazon.com/bedrock/latest/userguide/batch-inference.html
- Anthropic. Batch processing · https://platform.claude.com/docs/en/build-with-claude/batch-processing
- Anthropic. Prompt caching · https://platform.claude.com/docs/en/build-with-claude/prompt-caching
- Anyscale. How continuous batching enables 23x throughput in LLM inference · https://speakerdeck.com/anyscale/how-continuous-batching-enables-23x-throughput-in-llm-inference
- Anyscale. LLMs and agentic AI on Anyscale | Anyscale Docs · https://docs.anyscale.com/llm
- Baseten. Announcing Baseten’s $75M Series C · https://www.baseten.co/blog/announcing-baseten-75m-series-c
- Baseten. Cloud Pricing · https://www.baseten.co/pricing
- Baseten. The Baseten Inference Stack | Guides · https://www.baseten.co/resources/guide/the-baseten-inference-stack
- BentoML. LLM Inference Handbook · https://www.bentoml.com/llm
- Capgemini. Harnessing the value of AI: Unlocking scalable advantage · https://www.capgemini.com/insights/research-library/generative-ai-in-organizations-2025
- Cerebras. Inference - Cerebras · https://www.cerebras.ai/inference
- Deloitte. State of Generative AI Q4 – Press Release · https://www.deloitte.com/us/en/about/press-room/state-of-generative-ai.html
- EU AI Act. EU Artificial Intelligence Act | Up-to-date developments and analyses of the EU AI Act · https://artificialintelligenceact.eu/
- Exploding Topics. How Many AI Companies Are There? (2025) · https://explodingtopics.com/blog/number-ai-companies
- Fireworks AI. Fireworks - Pricing · https://fireworks.ai/pricing
- Fireworks AI. Prompt caching - Fireworks AI Docs · https://docs.fireworks.ai/guides/prompt-caching
- Fractile. https://www.fractile.ai/news/fractile-raises-220m-to-build-the-next-generation-of-inference-hardware · https://www.fractile.ai/news/fractile-raises-220m-to-build-the-next-generation-of-inference-hardware
- GitHub / vLLM. [Performance]: decoding speed on long context · Issue #11286 · vllm-project/vllm · https://github.com/vllm-project/vllm/issues/11286
- Google Cloud. Batch predictions | Generative AI on Vertex AI | Google Cloud Documentation · https://docs.cloud.google.com/vertex-ai/generative-ai/docs/maas/capabilities/batch-prediction
- Google Cloud. Throughput quota | Generative AI on Vertex AI | Google Cloud Documentation · https://docs.cloud.google.com/vertex-ai/generative-ai/docs/resources/throughput-quota
- Groq. Groq Raises $750 Million as Inference Demand Surges · https://groq.com/newsroom/groq-raises-750-million-as-inference-demand-surges
- Groq. Rate Limits - GroqDocs · https://console.groq.com/docs/rate-limits
- Hugging Face. Text Generation Inference · Hugging Face · https://huggingface.co/docs/text-generation-inference/en/index
- ICO. Guidance on AI and data protection · https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection
- Intel. Intel, SambaNova Planning Multi-Year Collaboration for Xeon-Based AI Inference · https://newsroom.intel.com/data-center/intel-and-sambanova-planning-multi-year-collaboration-for-xeon-based-ai-inference
- KServe. Overview | KServe · https://kserve.github.io/website/docs/admin-guide/overview
- LiteLLM. Router - Load Balancing | liteLLM · https://docs.litellm.ai/docs/routing
- Microsoft Azure. Azure OpenAI Service - Pricing | Microsoft Azure · https://azure.microsoft.com/en-us/pricing/details/azure-openai
- Microsoft Learn. What Is Provisioned Throughput for Foundry Models? - Microsoft Foundry · https://learn.microsoft.com/en-us/azure/foundry/openai/concepts/provisioned-throughput?tabs=global-ptum
- NIST. Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile · https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
- NVIDIA. Removing the Guesswork from Disaggregated Serving | NVIDIA Technical Blog · https://developer.nvidia.com/blog/removing-the-guesswork-from-disaggregated-serving
- PR Newswire / MarketsandMarkets. AI Inference Market worth $254.98 billion by 2030 - Exclusive Report by MarketsandMarkets™ · https://www.prnewswire.com/news-releases/ai-inference-market-worth-254-98-billion-by-2030---exclusive-report-by-marketsandmarkets-302388315.html
- Together AI. Overview - Together AI docs · https://docs.together.ai/docs/inference/batch/overview
- Together AI. Pricing | Together AI · https://www.together.ai/pricing
- arXiv. Efficient Memory Management for Large Language Model Serving with PagedAttention · https://arxiv.org/abs/2309.06180
- arXiv. SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills · https://arxiv.org/abs/2308.16369
- arXiv. Splitwise: Efficient generative LLM inference using phase splitting · https://arxiv.org/abs/2311.18677
- vLLM. Automatic Prefix Caching - vLLM · https://docs.vllm.ai/en/latest/features/automatic_prefix_caching
- vLLM. Parallelism and Scaling - vLLM · https://docs.vllm.ai/en/latest/serving/parallelism_scaling