INFERENCE CHIP AI 基础设施扫描 2026-05-13 to 2026-05-13 运行 20260514080039

给 long-context LLM 任务用的调度中间件——智能做批处理和路由，不换新硬件也能把推理成本砍掉 60%。

给大文档语料做生产级 agentic 系统和 RAG pipeline 的 ML 工程团队，随着上下文窗口超过 32k tokens，推理成本迅速膨胀，延迟也越来越不可预测。vLLM 和 TGI 这类现有 serving 框架，本来是为短上下文、低时延在线请求优化的，并不原生支持对吞吐受限的 long-context 任务做批处理、分片和优先级调度。结果就是 GPU 被严重超配，任务队列一排就是好几个小时，还没有一套成本归因工具能把 token 花费对应回业务结果。

Bizidea 研究 2026-05-14

综合评分 3.8 / 5.0

4
市场
$600.0M 的 TAM、19.2% CAGR，以及已梳理出的 5 家竞品，说明这是个有意义的 AI infra 切口，但还没到十亿美元级别的大品类。
4
差异化
一个模型无关、可直接接入、能跨云和自托管端点路由的调度器，比单一厂商栈更锋利，但仍然能被复制。
3
执行
早期只计划招 5 个人、pilot 里程碑清楚、72% 毛利率、7.1x LTV/CAC 和 7 个月回本都很强，但模型里 4 个 warning 说明执行风险仍然偏高。
4
时机
Fractile 最新一轮 $220M 融资、文中提到的 30 倍吞吐缺口，以及 4 条近期信号，把紧迫性拉满，但核心触发因素仍主要来自单一来源。

章节

为何现在

Fractile 在 2026 年 5 月拿到 Accel 和 Founders Fund 领投的 $220M，说明顶级投资人已经把推理吞吐视作 AI 基础设施的新主战场，也给软件层调度工具立住了买方叙事。
Fractile 报出的 40 到 1,200 tokens/sec，把 30 倍吞吐缺口摆到了台面上；而在 Fractile 硬件还要 12–18 个月才普及之前，软件调度今天就能先吃下其中大约一半。
按照 Fractile 自己的对外说法，一些 long-context 推理任务在传统芯片上已经会跑上几周——这是企业 AI 团队此刻就在遇到的失效场景，也让软件补丁有了立刻的预算紧迫性。
资本开支正在明确从训练转向推理基础设施，Fractile 对自己后训练硬件定位就是证据——在专用芯片还没商业化之前，ML 团队最先愿意掏预算的，就是软件调度这一层。

催化因素。 Fractile 在 2026 年 5 月融到 $220M，把投资人和一线操盘者的共识彻底坐实：推理吞吐就是新战场。在下一代硬件距离全面可用还要 12–18 个月时，ML 团队已经在主动找软件层补丁。

章节

创意

产品是一套云托管的推理调度控制平面，作为一层轻代理，部署在任何兼容 OpenAI 的端点前面。请求一进来，调度器先按上下文长度、优先级和截止时间给任务画像，再把它和兼容的在途请求动态拼批，并挑出既满足时延 SLA、又最便宜的端点。团队只要在代码里加一次 SDK 调用，马上就能在看板里看到单任务成本拆解、队列深度和吞吐指标。调度器的批处理引擎能把 GPU 利用率拉到 80% 以上，而行业里很多超配部署通常只有 30–40%。遇到截止时间宽松的任务——比如隔夜批量分析、大语料导入——调度器会自动切到可抢占算力，把实际单 token 成本再压低 60–70%。

差异化。 现有推理 serving 框架（vLLM、TGI、LiteLLM）盯的是在线请求的中位时延，默认每个请求都同样紧急；这款产品则第一次把“感知吞吐”的批处理调度和按 SLA 分层的优先级机制，专门做给 long-context 任务。和云厂商自带的 batch API 不同，它不绑模型，任何兼容 OpenAI 的端点都能接，包括私有基础设施上的自托管模型。按节省额分成的定价方式，也和工程团队的利益天然一致——他们得向 CFO 证明新工具值这个钱，但又不想先背一笔固定承诺。

创业论点
滩头市场	先打 Series A–C 的 AI-native 创业公司（10–80 名工程师），它们已经把文档分析或代码审查 agent 跑到生产环境，常态处理 64k–200k token 上下文，而且每月推理花费已经超过 $30k
切入点	一个可直接接入的 Python SDK 加云端控制平面，拦截推理请求，按上下文长度给任务画像，把兼容任务打包后发往最便宜的可用端点——接入不到 1 小时，单任务成本就能降 50–70%
非显而易见洞察	推理瓶颈不只是硬件不够，核心更是调度问题。long-context LLM 任务本质上吞吐受限、适合批处理，和 HPC 负载很像，但主流推理框架却都把它当低时延在线请求来处理。Fractile 下注的是硬件；与之互补的软件层空白，是一层真正理解任务形态、上下文长度和 SLA 分层的调度器。纯软件创业公司现在就能吃下这个空白，不用自己造芯片。
风险投资级路径	先从 agentic 推理团队的调度 SDK 切入，再扩成完整的 inference FinOps 平台（成本归因、预算预警、容量规划），最后做成托管式多云推理 broker。等 Nvidia、Fractile 和云 TPU 这类异构推理硬件越来越多，它负责把复杂度全都抽掉。

目标用户
主要用户	Series A–C 的 AI-native 创业公司里的 ML 基础设施工程师；他们在生产环境运行 agentic pipeline，上下文窗口通常超过 32k tokens
次要用户	正在导入 LLM 文档处理或法务审阅流程的中端企业平台工程负责人
经济买方	工程副总裁或 ML Infrastructure 负责人

市场切入种子
首个客户	首个客户画像，是一家 30–60 人的 Series B AI-native 创业公司里的 ML Infrastructure 负责人。它的核心产品是文档审阅或代码分析 agent，当前在 AWS Bedrock 或 Azure OpenAI 上每月推理支出已达 $50k–$120k，也试过调 vLLM，但 100k+ token 任务还是会出现延迟尖峰。
购买触发点	触发购买的节点，要么是推理账单第一次超过 $50k，要么是 long-context 任务第一次因 SLA 违约引发客户升级投诉。
当前替代方案	现在的替代方案，是人工把 GPU 集群配得更宽，再配合自托管 vLLM 或 TGI、临时写的队列脚本，以及不断重谈云 GPU 预留实例。
切换理由	只要 30 分钟接入 SDK，就能马上看到任务级成本归因，还能把月账单砍掉 50%；相比之下，继续花几个月折腾 devops，而且还得买新硬件，显然不划算。
定价假设	先在 90 天 pilot 期按节省额抽成定价（拿到已验证推理成本降幅的 20%），之后切到每个 cluster 每月 $2,000–$8,000 的平台费，再叠加超出承诺量的按 token 收费。

待完成任务

任务	当前替代方案	成功指标
当推理账单冲破预算时，帮我看清到底是哪些任务在烧钱，这样我就能选择性延后低优先级批处理任务，同时守住面向客户请求的时延 SLA。	手工查看云成本看板，但看不到任务级颗粒度的花费	每月推理支出下降 50%，同时 SLA 关键请求的 P95 时延不变差
当我需要一夜之间处理 500 份文档、每份都有 100k-token 上下文时，帮我把负载智能排程并做批处理，这样我就不用再额外扩 GPU 容量，也能把这一轮跑完。	超配 H100 实例，再用 vLLM 默认调度器手工排队任务	用现有基础设施跑完整批任务，GPU 利用率超过 75%，单文档成本下降 60%

长上下文推理调度控制平面

flowchart LR
  Client[ML Engineer / Agent App] --> Proxy[Scheduling Proxy SDK]
  Proxy --> Profiler[Job Profiler\nContext Length and Priority]
  Profiler --> Batcher[Dynamic Batcher\nSLA-Tier Queue]
  Batcher --> Router[Endpoint Router]
  Router --> GPU1[Current GPUs\nH100 / A100]
  Router --> GPU2[Preemptible Compute\nSpot / Batch]
  GPU1 --> Dashboard[FinOps Dashboard\nCost Attribution]
  GPU2 --> Dashboard

创意评分卡 — 平均4.2 / 5 · 5个维度

信号 · 4/5Fractile 从顶级 VC 融到 $220M，直接验证了推理吞吐就是当前的硬约束；虽然只有单一来源，可信度受限，但信号本身很大，资金也足够重。
痛点 · 5/5推理成本和延迟已经在 AI-native 创业公司里引发预算升级和 SLA 违约；Fractile 自己披露“传统芯片上要跑几周”，说明在新硬件出货前，运营层面的痛感已经很重。
切入点 · 5/5可直接接入的 SDK、30 分钟集成时间、立刻可见的成本归因看板，这个切口具体、可验证，而且价值时刻就绑定在第一张月账单下降上。
防御性 · 3/5调度算法本身容易被学走；真正的防守会建立在专有任务形态数据、FinOps 集成锁定，以及 Fractile 等新加速器出货后形成的跨硬件路由优势。
规模化 · 4/5inference FinOps 和调度的 TAM 基本跟着整个 LLM 推理市场走；如果到 2028 年推理支出到 $50B+，哪怕只吃下其中 2%，再按 20% 节省抽成，也有 $200M+ ARR 的空间。

商业模式画布

关键伙伴

GPU 云厂商（AWS、Azure、GCP），提供可抢占和预留算力接入
模型 API 提供商（OpenAI、Anthropic、Mistral），做端点兼容性测试
ML 框架社区（vLLM、LiteLLM），帮助在开源生态里分发

关键活动

开发并持续迭代任务画像和批处理引擎
打通 GPU 云厂商和模型托管 API
搭建成本归因与 FinOps 报告流水线

关键资源

long-context 任务形态的调度算法 IP 和批处理优化引擎
兼容 OpenAI 的代理基础设施，具备多区域低时延端点
深懂推理 serving 和 GPU 调度的 ML 工程团队

价值主张

long-context 任务推理成本下降 50–70%，不需要换硬件
通过可直接接入的 Python SDK，在 1 小时内完成接入，代理任何兼容 OpenAI 的端点
提供单任务成本归因和 FinOps 看板，替代看不清的云端推理账单
按 SLA 分层调度任务，消灭批量负载动辄数小时的排队尖峰

客户关系

自助式 SDK 上手，附带 30 天免费 pilot
每月付费超过 $3k 的账户配专属 ML infra 成功经理
建一个给 ML 工程师交流调度配置和 benchmark 的 Slack 社群

渠道

通过 LinkedIn 和 AI Slack 社群，直接触达 AI-native 创业公司的 ML infra 负责人
开源一个 long-context 推理成本画像工具，做顶部漏斗的获客磁铁
靠免费 SDK 层走产品驱动增长，使用量到了阈值再升级

客户细分

运行生产级 agentic pipeline、上下文超过 64k tokens 的 Series A–C AI-native 创业公司
每月在推理上花费超过 $30k、已把 LLM 用于文档处理的中端企业

成本结构

调度控制平面和代理基础设施的云算力成本
懂调度算法和推理 serving 的 ML 工程师薪资
直销企业客户所需的客户成功和销售成本

收入来源

pilot 阶段按节省额抽成收费（拿已验证成本降幅的 20%）
pilot 转正后，每个 cluster 每月收取 $2,000–$8,000 平台费
超出月度承诺量后，按 token 加收超额费用

章节

市场

市场规模

市场规模概览
TAM	$600.0M 自下而上估算：约 20,000 家全球组织已经有足够重的生产级 GenAI 负载，会在意调度器经济性；按每家约 $30k 年度控制平面预算估算，同时与一个 2025 年已超过 $100B 的 AI inference 市场做交叉验证，意味着调度器层拿走不到 1% 的软件切片就成立。
SAM	$72.0M 估算值：北美和欧洲今天约有 3,000 支可触达的 AI-native 与企业团队，已经有 long-context 文档/代码负载，并愿意给优化/控制软件配约 $24k 年预算。
SOM	$5.4M Y3 可触达情景：靠直销和开源导流，拿下 150 家客户，每家平均年支出约 $36k，主要集中在高推理支出团队。

高管要点

long-context 推理已经是实打实的运营问题，但现有厂商大多给的是点状优化——batch API、prompt caching 或 provider-specific serving stack——而不是一套按上下文长度、SLA 和最便宜可行端点来分类任务的中立调度器 [18][2][4][40]。
最适合起步的买家，仍然是已经为生产推理付费的 ML infra 负责人，因为企业 AI 正从 pilot 走向规模化部署，而组织在扩实验和补治理这两件事上依然卡得很厉害 [11][13]。
竞争很激烈，但格局仍然分散：超大云卖吞吐预留，托管平台卖自己云上的更快推理，开源栈给原语；真正的空白，是跨 provider 的成本归因，加上对 long-context 任务做 SLA 感知路由 [1][30][9][16][28]。
技术 thesis 站得住，因为文献已经证明，持续批处理、prefix caching 和 prefill/decode 解耦都能带来明显增益；在 Fractile 或 Cerebras 这类定制芯片还没全面普及前，创业公司先把编排层商业化是可行的 [37][38][39][12]。
监管摩擦可控，但绝不轻：买家一旦把敏感文档路由到多个端点，就需要能审计的治理、区域控制和数据保护姿态，而不只是更低时延 [31][14][25][29]。

市场定义

这个市场指的是：服务于 long-context LLM 推理的控制平面软件，位于模型 API、自托管 runtime 和托管推理云之上。它给任务做形态画像、把兼容请求排队拼批、结合 batch/caching 感知做路由，并按工作负载归因支出。这个市场不包括通用模型托管，也不包括泛可观测性工具，除非它们明确在优化 long-context 批处理经济性和跨 provider 调度 [2][30][35][41]。

用户与买方

主要用户是 ML infrastructure 工程师和平台团队：他们在运营生产级的文档分析、代码分析或 agentic 工作流，提示词很长、截止时间也参差不齐。真正的经济买家通常是 Head of ML Infrastructure、VP Engineering，或对吞吐、时延和云 GPU 支出负责的中央平台 owner [11][13][9]。

购买触发点

当月度推理支出大到值得系统化地运营 batch、缓存和预留吞吐折扣，而不是再靠人工管理时，采购意愿会起来。 [1][29][4][16][36]
当 long-context 任务或隔夜文档批处理在现有 vLLM/TGI 栈上带来明显排队、解码变慢或尾时延失稳时，买方会开始找解法。 [19][9][5]
当管理层把推理视为下一个基础设施瓶颈，并在下一代硬件大规模落地前先拨预算做优化时，购买就会被推进。 [18][22][7][26]

支付意愿

市场已经接受为优化能力做明确价格分层。Anthropic 对 cache read 收费远低于基础输入价，AWS 和 Azure 都公开打出 50% 的 batch 折扣，Fireworks 对缓存 token 和 batch token 也给折扣，Together 则直接宣传 batch inference 成本低 50%。这给调度器留出了可信的预算空间——前提是它能证明自己在单一 provider 之外还能再多省一截 [4][1][29][16][36]。 [4][1][29][16][36]

品类动态

增长信号 19.2% CAGR

顺风因素

企业 GenAI 正从 pilot 走向规模化项目，真正需要优化推理运营的组织数量还会继续增加。
基础设施资本正从训练转向推理，这一点从 Fractile、Groq、Baseten 和 SambaNova/Intel 的信号都能看到。
云厂商和平台已经明确对 batch、cache 和 throughput 选项定价，这让买家越来越习惯按工作负载类别讨论节省空间。

逆风因素

一大块最容易拿的节省，本来就可以靠原生 provider 的 batch 或缓存功能吃到。
技术强的买家可以直接在开源栈上自建，降低他们为无差异路由逻辑付费的意愿。
Governance and data-protection requirements can limit endpoint choice for the exact document-heavy workloads that most need cost optimization.

验证信号

Fractile 的 $220M 融资，明确把推理时延定义成训练之后的下一个瓶颈。
Baseten 和 Groq 都围绕推理基础设施拿到大额融资，说明这个类别还在持续吸资本。
云厂商和托管平台已经把 batch 与缓存折扣直接写进定价页，说明买家早就在按工作负载类别，而不只是模型质量，来优化成本。
社区和一线操盘材料里仍不断冒出 long-context 性能痛点和 continuous batching 的收益，说明这不是一个抽象问题。

监管与技术约束

batch API 往往不支持工具调用或结构化输出这类交互能力，所以调度器能延后的工作，不能靠改变应用行为来硬做。
prompt caching 的收益取决于前缀是否稳定，有时还依赖 session 亲和性或 replica locality，所以软件调度不能只看价格表，还得懂工作负载形态。
吞吐预留和区域部署模式高度 provider-specific，这会显著增加中立控制平面对配额、时延和驻留选项的归一化难度。
只要请求可能跨区域或跨模型提供方，敏感企业文档流就需要可审计的治理与数据保护控制。

长上下文推理控制版图

章节

竞争

竞争格局可以拆成四类。超大云（AWS、Azure、Vertex）在单一云里卖 batch、缓存和预留吞吐 [1][30][21]。Baseten、Fireworks、Together 这类托管推理平台，卖的是它们自己基础设施上的更快、更便宜推理 [9][16][36]。Anyscale、vLLM、LiteLLM、BentoML、KServe 这类开源编排层提供的是原语，但集成和策略工作仍然压在买家身上 [6][41][28][10][27]。Groq、Cerebras、SambaNova、Fractile 这类专用硬件厂商则把性能天花板继续往上抬，同时也让端点异构性更强，反而进一步强化了中立路由层的价值 [22][12][26][18]。

竞争对手	阶段	切入点	定价	优势	相对劣势
AWS Bedrock	现有厂商	AWS 体系内原生的 batch inference、缓存定价和预留/预配云控制。	按 token 用量收费；支持模型的 batch 定价低 50%；预配吞吐通过客户团队报价。	企业采购路径成熟，日志、配额和周边 AWS 服务一体化。	主要优化留在 AWS 上的工作负载，不是面向跨云、自托管栈和新硬件的中立 broker。
Baseten	成长期	托管推理平台，把基础设施和 runtime 优化打包，卖稳定性、速度和成本。	公开 token 定价，另有按算力计费的专属部署和企业方案。	强生产导向、支持 self-host，且在推理赛道里品牌很强，最近也拿到新资金。	它希望客户把负载留在 Baseten，而不是在买家已使用的所有端点之间做路由。
Fireworks AI	成长期	高性能 serverless 与部署式推理，公开给出 cached token 与 batch 折扣。	公开 serverless 按 token 定价，cached-input 折扣 50%，batch 折扣 50%，也提供按 GPU 小时计费的按需价格。	速度/成本叙事清楚，针对重复前缀工作负载的 prompt caching 机制也成熟。	它仍然是单一执行场所，不是一个跨云和自托管集群的优化层。
Together AI	成长期	把 serverless、dedicated 和 batch inference 放在同一商业体系下的开源模型云。	公开按 token 定价，且对很多模型宣传 batch inference 成本低 50%。	模型目录广，对偏好开源模型的 AI-native 团队吸引力强。	它的经济激励是把更多流量留在 Together，而不是在多个 provider 之间做套利。
Anyscale	成长期	提供 Ray Serve 编排加 vLLM serving，适合愿意使用更可定制平台的团队。	企业导向的定制定价，公开页面未给出明确数字。	开源信誉强，面向高级团队的编排叙事也完整。	相比可直接接入的调度器，它的采用路径更重，而且成本归因与策略工作仍要客户自己补。

为什么现有厂商不会默认胜出

云平台. AWS、Azure 和 Vertex 越来越多地暴露 batch 与预留吞吐控制，但这些能力都长在云厂商自己的体系里，默认并不能解决跨 provider 调度或硬件无关的 FinOps。
托管推理平台. Baseten、Fireworks 和 Together 已经能把速度和成本效率卖出去，但它们的胜法是把工作负载留在自家栈里，而不是在多套栈之间替客户挑最便宜端点。
开源与自建. vLLM、LiteLLM、Ray Serve、BentoML 和 KServe 给了强团队足够多原始零件，但买家仍要自己设计路由策略、节省归因和可靠性运营。
专用推理硬件. Groq、Cerebras、SambaNova 和 Fractile 能把 tokens-per-second 抬高，但它们并没有解决“先分类工作负载、在多个端点间裁决、再按任务类型解释支出”这件事。

章节

商业计划

Long Context Inference Scheduler 是一层给 AI 团队用的控制平面：当文档分析和代码分析负载已经先被 long-context 推理成本和排队拖住，而还没到必须上新硬件的时候，它先把问题扛下来。第一个客户画像，是 10–80 名工程师的 Series A–C AI-native 创业公司；它们每月已经在推理上花掉约 $50k–$120k，并且在 64k–200k token 任务上碰到了预算冲击或 SLA 失守。产品以可直接接入的 SDK 和代理切进来，按上下文长度、优先级和截止时间给请求分类，再把可延后的任务打包并路由到仍满足策略要求的最便宜端点。研究支持它先打一个聚焦市场，而不是一开始就讲大而全的推理平台故事：初始 long-context 控制平面类别的 TAM 约 $600.0M，SAM 约 $72.0M，Y3 SOM 约 $5.4M。买方逻辑站得住，因为云厂商、模型厂商和托管推理平台，已经把“为批处理、缓存和吞吐优化付费”这件事教育出来了，只是大多数工具仍绑在单一提供方，或者要求团队自己做不少平台工程。更稳妥的打法，是先打穿一个窄而深的工作流，在买家已经打开原生优化开关之后，仍证明自己能带来增量节省，再往更广的 inference FinOps 和多硬件 brokerage 扩。需要保持克制的地方也很清楚：超大云和开源的替代风险很强，敏感文档路由会碰到治理摩擦，而直接客户证据目前主要还是研究语料和 Fractile 融资这一条 headline catalyst。换句话说，这更像一套值得推进的运营型 thesis，且能被清晰证伪，还谈不上已经去完风险的基础设施投资。

问题

在 vLLM、TGI 或云模型 API 上跑 64k–200k token 文档/代码分析任务的 AI-native 团队，因为当前 serving stack 把 long-context 负载当成低时延请求来处理，最后只能超配 GPU、吞下队列尖峰，还看不清成本。
云厂商原生的 batch、缓存和预留吞吐控制，只能在单一栈里起作用；买家仍然缺一套中立系统，来判断哪些任务能延后、在策略约束下哪个端点最便宜，以及花出去的钱到底对应了哪类工作负载和业务价值。

解决方案

在兼容 OpenAI 的端点前部署一层轻代理和 Python SDK，让每个请求在执行前先按上下文长度、SLA 分层和截止时间完成画像。
先用 shadow mode 跑，再逐步放开受控路由，把兼容的 long-context 任务做批处理，把隔夜或低优先级任务导向更便宜的算力，并把任务级成本归因露出来，证明节省来自原生厂商特性之外的增量。

为什么我们会赢

滩头市场虽然窄，但痛得很急：买家手里已经有一张看得见的月账单，也能比采购一个大平台更快量出节省、排队减少和部署速度。
中立调度器可以架在 AWS、Azure、自托管 vLLM 栈和新硬件之上，而不是逼客户把负载迁到某一家厂商的商业栈里。
围绕上下文形态、截止时间松弛度、缓存复用和真实节省积累起来的专有遥测，能慢慢长成路由和策略护城河，而开源原语默认并不会沉淀这些东西。

战略选择
滩头市场	Series A–C 的 AI-native 创业公司，团队规模 10–80 人，已经把文档分析或代码分析 agent 跑到生产环境，常态处理 64k–200k token 上下文，而且每月推理支出超过 $30k。
切入点理由	这个切片现在就疼，技术买家也能很快装上代理，而且手里有足够多可延后或隔夜跑的任务，省钱效果很快能看出来。如果一开始就去打更广的企业 AI 方案、对时延极敏感的聊天场景，或全托管模型托管，就会在还没证明自己相对原生 batch 和缓存功能有增量价值之前，先背上安全审查、集成成本和更大的竞争面。
推进顺序	公司应该先从只读遥测和节省看板起步，再对一类受限的 long-context 任务开启策略路由，等 pilot 客户转正后，才加更广的 FinOps 控制和感知硬件的 brokerage。招聘和合作也要按这个顺序来：先把调度器核心搭起来，创始人亲自去卖给共创客户，等 pilot 到 production 的转化开始可复制后，再补 solutions、合作伙伴和更完整的合规封装。
暂不进入	面向终端交互场景、时延极敏感的聊天推理 · 全托管模型托管或 GPU 云转售 · 在策略控制尚未被验证前，就去做高敏感度的 EU 和 UK 文档路由场景 · 脱离 long-context 调度 ROI、泛泛讲企业可观测性定位

进入市场
切入点	当 AI-native 创业公司的月度推理支出开始变得足够大，或一次 long-context SLA 失守引发高层关注时，把 90 天 pilot 卖给 Head of ML Infrastructure 或 VP Engineering；先在一个文档或代码分析工作流上用 shadow mode 跑，等节省和排队改善被验证后，再转生产。
渠道	创始人主导 outbound，直接找已经有明显推理支出的 AI-native 创业公司里的 ML infra 和平台负责人 · 把开源的 profiling 和 benchmark 工具分发到 vLLM、LiteLLM、Ray、BentoML 和 KServe 社区 · 等调度器切口验证出可复制需求后，再做云厂商、模型厂商和加速器合作
漏斗目标	目标账户到合格 pilot 20–30%，合格 pilot 到付费 pilot 50%+，付费 pilot 到 production 50%+，production 账户到可公开案例 50%+。
定价	pilot 阶段按节省额抽成，让第一个买家能直接拿着真实账单来论证部署合理性；之后转成每个托管 cluster 每月约 $2k–$8k 的平台费，并按调度 token 量加收超额费用。这样第一份合同就直接绑定可测量的降本时刻，等调度器变成运营基础设施后，再切到更可预测的软件支出。

产品路线图
MVP	MVP 是一套跑在 shadow mode、控制权有限的兼容 OpenAI 调度器：给任务做画像，量上下文长度和截止时间松弛度，推荐如何拼批、该往哪种更便宜的执行环境发，并在看板里展示已验证的工作负载级节省。它必须先兼容现有 vLLM、LiteLLM 或云 API 栈，不能一上来就要求买家把所有推理流量搬走。
6 个月	6 个月内，交付可用于生产的 SDK 埋点、shadow-mode 遥测、任务级成本归因、针对一类可延后 long-context 任务的策略控制，以及 2–3 个跑在真实文档或代码分析负载上的共创客户 pilot。
12 个月	12 个月内，扩到更多工作负载类别的写路径路由，补齐按提供方归一化的定价、区域和端点策略控制、对标原生 batch 与缓存功能的 benchmark 报告，并拿到第一批可复制的 production 转化。
24 个月	24 个月内，扩成更完整的 inference FinOps 与 brokerage 层：做容量规划、预留与 spot 的策略自动化，并在保持中立控制平面位置的前提下，跨异构云和专用推理硬件做路由。
关键押注	目标客户里，有足够多任务是可延后、适合批处理的，调度器才能在不伤关键时延路径的前提下省下真金白银。 · 相比把推理栈整体迁往单一托管平台，买家会更早接受以 shadow mode 部署一层中立代理。 · 即便买家已经把原生 batch 和缓存功能开起来，公司仍然能证明自己有增量节省，而不是只在对方还没用好原生功能时才有效。 · 对于第一波重文档客户来说，区域、提供方审批和审计日志这类治理控制足够顶住需求。

商业模式
收入来源	按已验证推理支出降幅收取分成的 pilot 费用 · 按托管 cluster 或部署收取的经常性平台订阅费 · 针对高级 FinOps 控制、策略治理和多提供方 brokerage 的用量超额费与高级模块费
价值单位	托管推理 cluster 与被调度的 long-context 工作负载量
目标毛利率	70%
扩张杠杆	客户完成第一批 long-context 部署后，在同一账户里扩更多工作负载和 cluster · 从路由与节省分析上探，卖更广的 inference FinOps 和策略控制 · 等治理和区域控制成熟后，从创业公司扩到更大的平台团队

战略地图
北极星指标	在调度器控制下完成、且已验证实现成本节省并满足 SLA 的 long-context 任务数
输入指标	被监控工作负载中，被判定为可延后或适合批处理的比例 · 相对原生提供方特性的增量节省 · pilot 到 production 的转化率 · 被路由工作负载的 P95 时延达标率 · 从安装 SDK 到拿到第一份节省报告的中位时间
待构建护城河	跨提供方的遥测数据集：包括上下文长度、缓存复用、截止时间松弛度，以及每个已完成任务的真实成本 · 一套策略引擎和 benchmark 语料库，能回答原生 batch、缓存或专用硬件在什么场景下比默认路由更强，什么场景下并不会 · 和开源 serving stack 及提供方 API 的深度集成，把部署速度做到比客户内部自建更快
终止标准	前 20 个目标账户里，少于 5 个账户能找到至少 20% 的 long-context 量，且这部分量可信地可延后或可拼批。 · 在 5 个生产负载上的 benchmark，在客户已先启用原生 batch 和缓存功能后，仍做不到至少 15% 的增量节省。 · 前 4 个付费 pilot 里，少于 2 个能在 pilot 结束后 6 个月内转成 production 合同。 · 大多数合格机会里，安全或平台团队都拒绝把产品放进热路径，导致它始终只能做一个没有控制权的看板。

里程碑

0–12 个月

在核心 AI-native 创业公司滩头市场签下 2–3 个共创客户
上线 shadow-mode 遥测和工作负载级节省看板
完成 5 组与原生 provider 功能的对照 benchmark
至少转出 2 个付费 pilot 和 1 个 production 客户

12–24 个月

把 approved providers 和 regions 的策略路由标准化
在一类工作负载上跑通可复制的 pilot 到 production 转化
在现有账户里，从单一工作负载扩到更广的 inference FinOps 控制
建立初步的云厂商、模型厂商或加速器合作，扩大可覆盖端点

24–36 个月

支持跨云、自托管集群和新型推理硬件的异构端点路由
建出可对外引用的 benchmark 语料库和策略数据集，让路由质量随时间提升
把客户群扩到更大的平台团队，以及少量治理要求更强的企业账户
靠灯塔客户里的多工作负载扩张，跑到建模中的 Y3 SOM 轨迹

战略地图

flowchart LR
  Wedge[Long-context document and code workloads] --> MVP[Shadow-mode scheduler and savings dashboard]
  MVP --> Proof[Paid pilots with verified savings and SLA protection]
  Proof --> Expansion[Inference FinOps and multi-hardware brokerage]

创始团队

角色	入职时间	理由
创始人/CEO	Month 0	这个切口要靠创始人亲自卖和亲自做共创客户发现，因为买家痛点很细，得碰真实遥测，还要快速迭代定价。
创始工程师	Month 0	在跑出可信 pilot 前，公司必须有人把 SDK、代理、路由策略引擎和第一版看板扛起来。
创始 ML 系统工程师	Month 1	benchmark、按 provider 调优，以及工作负载形态分析，是证明自己比原生基础设施功能多省出一截的核心。
产品工程师	Month 4	等第一批 pilot 开始共享真实 trace，看板、策略控制和 operator workflow 就必须够得上 production。
解决方案工程师	Month 6	只有当公司拿到可复制的付费 pilot 后，部署支持、安全审查和 ROI 埋点才会开始变成瓶颈。

实验路线图

阶段	实验	假设	成功指标	负责人
0–90 天	访谈 20 位 ML infrastructure 和平台负责人，并收集匿名化工作负载 trace，覆盖超过 64k tokens 的文档和代码分析任务。	目标滩头市场里，确实重复出现可延后任务、账单冲击和排队痛点，足以支撑一个聚焦调度器采购。	至少 8 个目标对象确认痛点已经值得单独列预算，至少 5 个愿意分享足够的遥测，帮助团队判断截止时间松弛度和任务形态。	创始人/CEO
0–90 天	做出一版 shadow-mode SDK 和看板，在现有栈上量上下文长度、队列深度、provider 选择和工作负载级成本。	只要拿到第一份 benchmark 的时间够短，而且不拦截流量，买家会很快装上只读埋点。	两个共创客户能在 1 天内装好 SDK，并在 1 周内跑出可用的节省基线。	创始工程师
90–180 天	在 5 个生产负载上，与原生 batch 和缓存功能做受控对照测试。	一个真正理解任务形态的调度器，即便在 provider-native 优化之外，也还能多省出至少 15%。	5 个工作负载里有 3 个在不明显打破约定时延阈值的前提下，跑出至少 15% 的增量节省。	创始 ML 系统工程师
90–180 天	把两个 shadow-mode 账户转成付费 pilot，并只对隔夜或低优先级工作负载授予有限路由权。	只要看板把节省量清楚量出来，而且热路径风险被限制在一类工作负载内，买家就会愿意掏钱做 pilot。	签下 2 个付费 pilot，并且至少有 1 个工作负载在 kickoff 后 60 天内，从纯观察升级到受控路由。	创始人/CEO
180–365 天	给敏感文档路由账户上线区域与 provider 策略控制，以及审计日志。	只要治理阻力能被压到可接受，团队就有机会在不放弃中立多端点 thesis 的前提下，拿下更大的合同。	3 个后期 prospect 通过带策略路由控制的安全审查，至少 1 个转成 production。	产品工程师
180–365 天	发布一个开源 profiling 工具和 benchmark 数据集，专门分析 long-context 工作负载的经济性。	在这个技术性很强的类别里，开源分发比花钱买顶部流量，更容易拉来合格 pipeline。	直接从开源渠道拿到 10 次合格 inbound 对话和 3 次 pilot 评估。	开发者关系 / 创始人

风险评估

商业计划风险 — 5 已映射

影响 →

高

R3 R5

R1 R2

中

低

中

高

可能性 →

R1原生 batch、缓存和预留吞吐功能，在创业公司切入前就把大部分节省空间吃掉。 · High可能性 / High影响 — 先拿原生控制做 benchmark，只在跨 provider 路由或工作负载分类仍能量出明显增量节省的场景里卖。
R2平台团队不愿让一家创业公司的代理进推理热路径。 · High可能性 / High影响 — 先从 shadow mode 起步，早期只对非关键工作负载开放有限路由权，并在扩权限前先把审计和回滚控制补齐。
R3开源项目或客户内部平台团队会把基础调度原语自己补出来。 · Medium可能性 / High影响 — 不要只在路由逻辑上硬拼，而是围绕上线速度、benchmark 问责、专有遥测和策略控制竞争。
R4敏感文档工作流会触发 provider 审批、数据驻留或治理异议，压缩端点灵活性。 · Medium可能性 / Medium影响 — 优先做敏感度较低、美国优先的账户，尽早上线 provider 和 region 策略控制，在这些控制被验证前不要大举扩向企业。
R5滩头市场最终扩不成更广的 inference FinOps 或 brokerage 产品。 · Medium可能性 / High影响 — 每个 pilot 都顺手验证扩张需求，埋点相邻买家请求，并在多工作负载扩张没坐实前保持克制招聘。

风险	可能性	影响	缓解措施
原生 batch、缓存和预留吞吐功能，在创业公司切入前就把大部分节省空间吃掉。	High	High	先拿原生控制做 benchmark，只在跨 provider 路由或工作负载分类仍能量出明显增量节省的场景里卖。
平台团队不愿让一家创业公司的代理进推理热路径。	High	High	先从 shadow mode 起步，早期只对非关键工作负载开放有限路由权，并在扩权限前先把审计和回滚控制补齐。
开源项目或客户内部平台团队会把基础调度原语自己补出来。	Medium	High	不要只在路由逻辑上硬拼，而是围绕上线速度、benchmark 问责、专有遥测和策略控制竞争。
敏感文档工作流会触发 provider 审批、数据驻留或治理异议，压缩端点灵活性。	Medium	Medium	优先做敏感度较低、美国优先的账户，尽早上线 provider 和 region 策略控制，在这些控制被验证前不要大举扩向企业。
滩头市场最终扩不成更广的 inference FinOps 或 brokerage 产品。	Medium	High	每个 pilot 都顺手验证扩张需求，埋点相邻买家请求，并在多工作负载扩张没坐实前保持克制招聘。

首个客户
标题	Series B AI-native 创业公司的 ML Infrastructure 负责人
画像	一家 30–60 人的创业公司，已经把文档审阅或代码分析 agent 跑到生产环境，处理 64k–200k token 上下文，并在云 API 或自托管推理上有看得见的月度支出。
触发点	月度推理支出跨过约 $50k，或一次 long-context 排队事故升级成面向客户的问题。
买方	VP Engineering 或 ML Infrastructure 负责人
初始合同	先签 90 天付费 pilot，按已验证节省额的 20% 收费，实际区间大致在 $15k–$40k；转正后，1–2 个托管 cluster 加使用量超额费，对应约 $30k–$80k 年度经常性软件收入。

必须成立的条件

至少四分之一的合格目标账户，必须有足够多可延后的 long-context 工作，才能靠拼批和路由省钱，同时不打穿时延承诺。
即便客户已经启用当前提供方的原生 batch、缓存输入或预留吞吐功能，仍然要能看到至少 15% 的增量节省。
在大多数 pilot 里，shadow-mode 部署必须在 1 天内跑出第一版 benchmark 结果，并在 2 周内进入第一轮受控路由。
至少在最早几单付费 pilot 里，真正买单的人必须来自基础设施或平台预算，而不是实验性质的 AI 预算。
早期客户在首个工作负载被验证后，必须愿意扩到更广的 FinOps 或多提供方 brokerage；否则这个切口最后只会停在一个窄工具上。

待尽调问题

目标客户的 long-context 负载里，真正有截止时间弹性的比例是多少？又有多少是面向用户、时延极敏感的流量？
在客户把现有提供方的原生 batch、prompt caching 和预留吞吐都开足后，还剩多少节省空间？
为什么买家会装一层中立代理，而不是把更多流量直接迁去 Baseten、Fireworks、Together 或云厂商原生控制？
真实交易里，最先冒出来的治理阻力是什么：热路径可靠性、提供方审批，还是数据驻留？
单个工作负载能不能在不依赖重服务化定制部署的前提下，就落到 $30k–$80k 年支出？

投资人判断
结论	观察
信心	痛点真实，切口也顺，但在团队证明自己能在原生工具之外再多省出一截，并让买家接受热路径控制平面之前，判断仍应保持中等强度。
相信的理由	公司打的是一个明确预算 owner、一场可量化的成本事件，以及一个现有厂商今天只部分覆盖的跨提供方空白。
怀疑的理由	如果创业公司不能尽快拿到专有工作负载数据，并证明自己部署更快、问责更清楚，云厂商、托管推理平台和开源社区很快就会把大部分表层空间填平。
下一步尽调	下一步最关键的验证点，是在真实 long-context 负载上拿到 2 个付费 pilot：在原生优化已经打开的前提下，仍能跑出双位数增量节省，并最终转成年框合同。

章节

财务模型

三年合计
第 1 年收入	$95K EBITDA $-1.02M · 期末现金 $1.98M
第 2 年收入	$818K EBITDA $-1.17M · 期末现金 $808K
第 3 年收入	$2.65M EBITDA $-393K · 期末现金 $416K

单位经济
年 ARPU	$60K
毛利率	72%
CAC	$25K 回本期 7.0 个月
LTV / CAC	7.1x 生命周期价值 $180K

融资需求
轮次	种子前轮 · $3.0M
跑道	30 个月
里程碑	在 Y2 末实现 25 个活跃付费部署、约 68% 毛利率、多个 production reference，并拿到足够的路由验证，为围绕可复制的 pilot 到 production 转化发起 seed 融资做准备。

模型合理性

收入引擎. 基准情景在 Q4Y3 达到 67 个活跃付费部署，混合年收入约 $60K/部署；大部分抬升来自 Year 1 之后 pilot 的重复转化。
必须跑顺的事. 产品必须持续证明自己比原生 batch 和缓存功能更省钱，净新增才能在 Y2 维持每季度 4–6 个、在 Y3 维持每季度 8–12 个。
模型会失效的条件. 如果定价滑向 $52K，且毛利率卡在 68% 左右，downside 情景会在下一轮融资逻辑坐实前把现金打到 0 以下。
下一轮融资证明点. 只有当公司在 Y2 末拿到 25 个活跃部署、约 68% 毛利率，以及能缩短销售周期的多个 production reference，下一轮融资才算站得住。

营收、现金与 EBITDA — 12 个月的 Y1 + 8 个季度的 Y2/Y3

营收（线/面积）
期末现金（虚线）
EBITDA（柱，灰色为亏损）

资金用途 — $3.0M 种子前轮

按角色的人力增长 — 峰值12 FTE

FounderCEO
PlatformEng
MLSystemsEng
ProductEng
SolutionsEng
Sales
CustomerSuccess
PartnershipsOps

第3年情景：基准 / 下行 / 上行

	第3年营收	第3年 EBITDA	现金最低点	说明
下行	$1.89M	-$1.02M	-$378K	原生厂商功能压缩定价空间，pilot 转化变慢，公司在进入 seed 轮前拿到的净付费部署更少。
基准	$2.65M	-$393K	$387K	公司证明自己在原生工具之外仍能带来增量节省，定价维持在 BP production 区间中部，并把创始人主导销售和开源导流叠加起来。
上行	$3.45M	$282K	$886K	benchmark 胜出与合作伙伴转介绍带来更快转化、更干净的部署经济性，以及更强的 seed-ready 增长故事。

敏感性——第3年现金与营收影响（按幅度排序）

变量	下行	上行	现金影响	营收影响
CAC	CAC 为 $35K，因为 pilot 需要更多创始人和 solutions 时间	通过开源和合作伙伴来源 pipeline，把 CAC 压到 $20K	-$300K	-$140K
销售周期	pilot 到 production 周期 9 个月	有暖启动 reference 时周期 4–5 个月	-$290K	-$320K
ARPU	每个活跃部署的年收入 $52K	每个活跃部署的年收入 $66K	-$255K	-$354K
毛利率	稳态毛利率 68%	稳态毛利率 75%	-$215K	$0K
招聘节奏	比计划提前两个季度新增 1 位销售和 1 位 CS	把 1 个非关键 GTM 岗位延后到部署数超过 30 后再招	-$210K	-$90K
流失率	活跃部署月流失率 3.0%	月流失率 1.5%	-$135K	-$175K

情景

情景	第 3 年收入	第 3 年 EBITDA	现金低点	说明	关键变化
下行	$1.89M	$-1.02M	$-378K	原生厂商功能压缩定价空间，pilot 转化变慢，公司在进入 seed 轮前拿到的净付费部署更少。	每个活跃部署的年收入降到约 $52K。 Y2 的净新增部署放缓到 3、4、5、5；Y3 放缓到 6、8、10、10。由于支持和基础设施负担持续偏高，毛利率最高只到约 68%。
基准	$2.65M	$-393K	$387K	公司证明自己在原生工具之外仍能带来增量节省，定价维持在 BP production 区间中部，并把创始人主导销售和开源导流叠加起来。	每个活跃部署的年收入维持在 $60K。 Y2 的净新增部署按 4、5、6、6 走；Y3 按 8、10、12、12 走。毛利率从 Y1 早期的 50% 抬升到 Y3 的 72%。
上行	$3.45M	$282K	$886K	benchmark 胜出与合作伙伴转介绍带来更快转化、更干净的部署经济性，以及更强的 seed-ready 增长故事。	凭更大的 production 范围，每个活跃部署的年收入提升到约 $66K。 Y2 的净新增部署提升到 5、6、7、7；Y3 提升到 10、12、14、14。随着路由和支持进一步标准化，毛利率提升到约 75%。

敏感性

变量	下行情景	基准情景	上行情景
ARPU	每个活跃部署的年收入 $52K	每个活跃部署的年收入 $60K	每个活跃部署的年收入 $66K
CAC	CAC 为 $35K，因为 pilot 需要更多创始人和 solutions 时间	CAC 为 $25.2K	通过开源和合作伙伴来源 pipeline，把 CAC 压到 $20K
流失率	活跃部署月流失率 3.0%	月流失率 2.0%	月流失率 1.5%
销售周期	pilot 到 production 周期 9 个月	混合周期 6 个月	有暖启动 reference 时周期 4–5 个月
毛利率	稳态毛利率 68%	稳态毛利率 72%	稳态毛利率 75%
招聘节奏	比计划提前两个季度新增 1 位销售和 1 位 CS	只有在 production proof point 出现后才新增岗位	把 1 个非关键 GTM 岗位延后到部署数超过 30 后再招

关键假设 (24)

ID	名称	数值	单位	来源
A1	模型启动月份	2026-06	月	[BP date 2026-05-14]；模型假设 pre-seed 在计划日期后的下一个月完成交割。
A2	M1 起始现金	3000	USDK	[BP fundingAsk $2-4M pre-seed]；基准情景取区间中值 $3.0M，规模足以覆盖 Year-2 proof point 外加 6 个月缓冲。
A3	模型中的客户单位	活跃付费部署	definition	[BP businessModel unitOfValue managed inference cluster and workload volume]；customersEop 代表已经产生经常性软件收入的付费 pilot 或 production 部署。
A4	起始客户数（M1）	0	count	[BP milestones]；design-partner 工作发生在付费部署之前。
A5	每个活跃部署的混合年收入	60.0	USDK	[BP firstCustomer initialContract $15k-$40k pilot and $30k-$80k production ARR]；基准情景采用接近中位数的混合值，反映 pilot 和 production 账户并存后的平均水平。
A6	新增客户的收入确认方式	按期间平均活跃客户数	formula	创业公司财务常用做法，并锚定 BP 的 pilot 到 production 节奏：每月或每季度收入按 ((期初客户 + 期末客户) / 2) × ARPU 建模。
A7	第 1 年按月新增付费部署	[0,0,0,1,0,1,0,0,1,0,0,1]	count	[BP milestones 0-12 个月]；按节奏设计为拿下多个付费 pilot 和首个 production 转化，但不假设企业销售会迅速起量。
A8	第 2 年按季度新增付费部署	[4,5,6,6]	count	[BP milestones 12-24 个月；BP gtm funnelTargets；BP sequencingRationale]；假设创始人亲自打单带来的口碑，加上开源导流的 inbound，能形成可复制但仍然偏窄的动作。
A9	第 3 年按季度新增付费部署	[8,10,12,12]	count	[BP market SOM 150 customers at ~$36k；BP expansionLevers]；Y3 末达到 67 个活跃部署，仍明显低于陈述中的 SOM 上限。
A10	毛利率爬坡	50% M1-M6；60% M7-M12；68% Y2；72% Y3	百分比	[BP businessModel targetGrossMarginPct 70；BP risks on native vendor substitution and hot-path reliability]；模型初期低于目标值，因为团队要先吞下基础设施和支持成本；随着路由和支持标准化，后续再抬升。
A11	创始人/CEO 全负荷薪酬	150.0	USDK 每年 per FTE	创业公司财务经验值：美国 pre-seed infra 创始人拿略低于市场、但并非象征性的现金薪资。
A12	平台工程师全负荷薪酬	170.0	USDK 每年 per FTE	[BP team Founding eng]；创业公司财务经验值，对应早期 AI infra 工程人才及其薪酬附加成本。
A13	ML 系统工程师全负荷薪酬	185.0	USDK 每年 per FTE	[BP team Founding ML systems eng]；创业公司财务经验值，对应 benchmark 和路由优化人才。
A14	产品工程师全负荷薪酬	155.0	USDK 每年 per FTE	[BP team Product engineer]；创业公司财务经验值，对应早期全栈产品工程师及福利税费。
A15	解决方案工程师全负荷薪酬	140.0	USDK 每年 per FTE	[BP team Solutions engineer]；创业公司财务经验值，对应部署与安全审查支持。
A16	销售全负荷薪酬	160.0	USDK 每年 per FTE	[BP GTM founder-led outbound and later repeatable motion]；创业公司财务经验值，对应早期技术销售的固定加浮动薪酬。
A17	客户成功全负荷薪酬	110.0	USDK 每年 per FTE	创业公司财务经验值，对应 pilot 转正后的 onboarding 和 reference-customer 支持。
A18	合作与运营全负荷薪酬	130.0	USDK 每年 per FTE	[BP channels and later partnerships]；创业公司财务经验值，对应 Y3 后期支撑生态合作与内部扩张的运营岗位。
A19	薪酬分摊规则	创始人 60% 计入 S&M、40% 计入 G&A；解决方案工程师 60% 计入 S&M、40% 计入 R&D；合作与运营 50% 计入 S&M、50% 计入 G&A；销售和客户成功 100% 计入 S&M；所有工程岗位 100% 计入 R&D	policy	[BP team role rationales；BP sequencingRationale]；反映一支产品优先、创始人亲自销售、而且早期 GTM 很依赖部署支持的组织。
A20	创始团队之外的招聘顺序	第 1 位销售 M10；第 2 位平台工程师 M16；第 1 位客户成功 M18；第 2 位销售 M21；合作与运营 M27；第 3 位销售 M30；第 2 位客户成功 M33	timing	[BP team；BP milestones；BP sequencingRationale]；只有在早期 pilot 和 production reference 出现后，才补 GTM 与客户覆盖。
A21	非薪酬运营费用节奏	S&M 月度 Y1 [4,4,4,5,5,6,6,7,7,8,8,9]，季度 Y2-Y3 [33,36,39,42,45,48,51,54]；R&D 月度 Y1 [12,12,12,14,14,15,15,16,16,17,17,18]，季度 Y2-Y3 [57,60,63,66,69,72,75,78]；G&A 月度 Y1 [6,6,6,6,6,7,7,7,7,8,8,8]，季度 Y2-Y3 [27,30,33,36,39,42,45,48]	USDK	[BP operations；BP risks；Research regulatoryLandscape and distributionChannels]；覆盖云工具、benchmark 基础设施、差旅、安全/法务工作和轻量管理费用。
A22	净客户计划内含流失	单位经济里按 2.0% 月流失建模；A7-A9 展示的新增客户，是扣除预期流失和小幅扩张后的净活跃部署数。	policy	创业公司财务经验值，并锚定一个粘性还不错、但确实会掉 pilot 且面临 vendor 替代风险的 infra 产品。
A23	混合 CAC	25.2	USDK per net new customer	根据模型测算：Y2-Y3 销售与市场支出约 $1.59M，除以 63 个净新增活跃部署，得出该数值；与创始人主导 outbound 加开源分发的打法大体一致。
A24	融资规模规则	跑到 Y2 里程碑再加 6 个月缓冲	policy	开发者指令；[BP fundingAsk] 这一轮融资按“跑到 Y2 末里程碑并再留 6 个月缓冲”来定，目标是在下一轮机构融资前，先把 pilot 到 production 的重复转化跑通。

单位经济流转

flowchart LR
  Leads --> PaidPilots
  PaidPilots --> ActiveDeployments
  ActiveDeployments --> PlatformRevenue
  PlatformRevenue --> GrossProfit
  GrossProfit --> Cash

警示项: 模型在 Y1 仍要烧掉超过 $1.0M，Y2 再烧 $1.17M，因此执行风险高度集中在：要在现金跌破 $1M 前，证明 pilot 转化能更快。 · 由于 Y3 仍有不少 solutions 工作和部署支持，退出时每个 FTE 的收入只到 SaaS benchmark 的低端。 · Q4Y3 才是第一个 EBITDA 转正季度，所以只要转化节奏慢 1–2 个季度，融资时间点大概率就会被迫提前。 · 客户数按“扣除流失并包含小幅扩张后的净值”建模；如果真实毛流失超过 2.0% 这个经验值，且没有 upsell 抵消，Y3 收入会明显低于预期。

章节

主要风险

云厂商反制. AWS、Azure 和 GCP 可能会把原生 long-context 批量调度直接打包进托管推理 API，12–18 个月内就把核心切口商品化。 缓解措施: 在任何单一云厂商推出竞争性 batch API 之前，先把多云和自托管模型兼容性做出来，并把护城河转到专有任务形态数据和云厂商难以复制的 FinOps 集成上。
开源替代. vLLM 或 LiteLLM 社区可能会把“感知吞吐”的批量调度做成开源能力，削弱商业产品的价值主张。 缓解措施: 把底层调度原语贡献给开源，拿它做分发渠道；同时把托管控制平面、成本归因引擎和多端点路由留在商业闭源层。
单一来源证据缺口. Fractile 的硬件性能说法（40 到 1,200 tokens/sec）还没有独立 benchmark 验证；如果这套硬件叙事被证明夸大，推理调度的紧迫信号也会变弱。 缓解措施: 在 Series A 之前，先靠 ML infra 访谈直接验证客户痛点；这个调度产品的价值，并不依赖 Fractile 硬件是否准时出货。

章节

证据

引用来源 (40)

AWS. Amazon Bedrock Pricing – AWS · https://aws.amazon.com/bedrock/pricing
AWS. Process multiple prompts with batch inference - Amazon Bedrock · https://docs.aws.amazon.com/bedrock/latest/userguide/batch-inference.html
Anthropic. Batch processing · https://platform.claude.com/docs/en/build-with-claude/batch-processing
Anthropic. Prompt caching · https://platform.claude.com/docs/en/build-with-claude/prompt-caching
Anyscale. How continuous batching enables 23x throughput in LLM inference · https://speakerdeck.com/anyscale/how-continuous-batching-enables-23x-throughput-in-llm-inference
Anyscale. LLMs and agentic AI on Anyscale | Anyscale Docs · https://docs.anyscale.com/llm
Baseten. Announcing Baseten’s $75M Series C · https://www.baseten.co/blog/announcing-baseten-75m-series-c
Baseten. Cloud Pricing · https://www.baseten.co/pricing
Baseten. The Baseten Inference Stack | Guides · https://www.baseten.co/resources/guide/the-baseten-inference-stack
BentoML. LLM Inference Handbook · https://www.bentoml.com/llm
Capgemini. Harnessing the value of AI: Unlocking scalable advantage · https://www.capgemini.com/insights/research-library/generative-ai-in-organizations-2025
Cerebras. Inference - Cerebras · https://www.cerebras.ai/inference
Deloitte. State of Generative AI Q4 – Press Release · https://www.deloitte.com/us/en/about/press-room/state-of-generative-ai.html
EU AI Act. EU Artificial Intelligence Act | Up-to-date developments and analyses of the EU AI Act · https://artificialintelligenceact.eu/
Exploding Topics. How Many AI Companies Are There? (2025) · https://explodingtopics.com/blog/number-ai-companies
Fireworks AI. Fireworks - Pricing · https://fireworks.ai/pricing
Fireworks AI. Prompt caching - Fireworks AI Docs · https://docs.fireworks.ai/guides/prompt-caching
Fractile. https://www.fractile.ai/news/fractile-raises-220m-to-build-the-next-generation-of-inference-hardware · https://www.fractile.ai/news/fractile-raises-220m-to-build-the-next-generation-of-inference-hardware
GitHub / vLLM. [Performance]: decoding speed on long context · Issue #11286 · vllm-project/vllm · https://github.com/vllm-project/vllm/issues/11286
Google Cloud. Batch predictions | Generative AI on Vertex AI | Google Cloud Documentation · https://docs.cloud.google.com/vertex-ai/generative-ai/docs/maas/capabilities/batch-prediction
Google Cloud. Throughput quota | Generative AI on Vertex AI | Google Cloud Documentation · https://docs.cloud.google.com/vertex-ai/generative-ai/docs/resources/throughput-quota
Groq. Groq Raises $750 Million as Inference Demand Surges · https://groq.com/newsroom/groq-raises-750-million-as-inference-demand-surges
Groq. Rate Limits - GroqDocs · https://console.groq.com/docs/rate-limits
Hugging Face. Text Generation Inference · Hugging Face · https://huggingface.co/docs/text-generation-inference/en/index
ICO. Guidance on AI and data protection · https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection
Intel. Intel, SambaNova Planning Multi-Year Collaboration for Xeon-Based AI Inference · https://newsroom.intel.com/data-center/intel-and-sambanova-planning-multi-year-collaboration-for-xeon-based-ai-inference
KServe. Overview | KServe · https://kserve.github.io/website/docs/admin-guide/overview
LiteLLM. Router - Load Balancing | liteLLM · https://docs.litellm.ai/docs/routing
Microsoft Azure. Azure OpenAI Service - Pricing | Microsoft Azure · https://azure.microsoft.com/en-us/pricing/details/azure-openai
Microsoft Learn. What Is Provisioned Throughput for Foundry Models? - Microsoft Foundry · https://learn.microsoft.com/en-us/azure/foundry/openai/concepts/provisioned-throughput?tabs=global-ptum
NIST. Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile · https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
NVIDIA. Removing the Guesswork from Disaggregated Serving | NVIDIA Technical Blog · https://developer.nvidia.com/blog/removing-the-guesswork-from-disaggregated-serving
PR Newswire / MarketsandMarkets. AI Inference Market worth $254.98 billion by 2030 - Exclusive Report by MarketsandMarkets™ · https://www.prnewswire.com/news-releases/ai-inference-market-worth-254-98-billion-by-2030---exclusive-report-by-marketsandmarkets-302388315.html
Together AI. Overview - Together AI docs · https://docs.together.ai/docs/inference/batch/overview
Together AI. Pricing | Together AI · https://www.together.ai/pricing
arXiv. Efficient Memory Management for Large Language Model Serving with PagedAttention · https://arxiv.org/abs/2309.06180
arXiv. SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills · https://arxiv.org/abs/2308.16369
arXiv. Splitwise: Efficient generative LLM inference using phase splitting · https://arxiv.org/abs/2311.18677
vLLM. Automatic Prefix Caching - vLLM · https://docs.vllm.ai/en/latest/features/automatic_prefix_caching
vLLM. Parallelism and Scaling - vLLM · https://docs.vllm.ai/en/latest/serving/parallelism_scaling