跳到主要内容

中转服务 API 价格与实现机制

核对日期:2026-05-13。

1. 结论先行

“中转 API 比官方 API 便宜很多”通常不是单一原因,而是几类完全不同的服务被放在同一个词里:

类型是否可能合规为什么看起来便宜核心风险
正规 AI Gateway / 聚合器可能合规统一接入、多供应商路由、Batch、缓存、企业折扣、低价模型路由仍需看数据处理、计费透明度和供应商合同
企业代理 / 云市场转售可能合规批量采购、承诺消费、渠道折扣、统一账单不一定比官方低,更多是采购便利和合规支持
自建开源模型兼容接口合规取决于模型许可用 vLLM、TGI、Ollama 等提供 OpenAI-compatible API,底层不是官方闭源模型质量、上下文、工具调用和安全能力不等价
灰产中转站高风险额度套利、订阅拆分、盗刷账号、模型替换、日志变现、短期补贴泄露代码/数据、模型降级、账号封禁、法律和合规风险

如果某个中转站宣称“官方同模型、免实名、国内直连、70%-90% 折扣、无限量、零留存”,要默认它不是单纯的技术优化。官方本身确实提供 50% Batch 折扣、缓存折扣、低优先级/弹性处理、企业价等机制,但这些通常不足以稳定支撑“长期低到 1 折”的价格。

2. 官方 API 本身有哪些降价机制

先不要把所有便宜都归因于“黑产”。官方平台已经提供了多种合法降本手段。

2.1 Batch API

OpenAI 官方价格页标明 Batch API 对输入和输出节省 50%,但代价是异步处理,通常适合评测、批量抽取、离线生成、数据清洗,不适合实时对话。

Anthropic Message Batches API 也对标准 API 价格提供 50% 计费,并强调适合不要求立即返回的大批量请求。

Google Gemini API 的付费层包含 Batch API,价格页也展示了 Batch 档位通常低于 Standard 档位。

这解释了为什么某些“离线任务平台”可以比实时官方 API 便宜很多:它们不是拿实时链路硬打折,而是把任务转成异步批处理。

2.2 Prompt / Context Caching

缓存是 Agent 成本差异最大的合法来源之一。

OpenAI 价格页展示了 cached input 的单价显著低于普通 input。例如 GPT-5.5 标准输入为 5.00 美元 / 1M tokens,cached input 为 0.50 美元 / 1M tokens。

Anthropic 的 prompt caching 对 cache read 按基础输入价格的 0.1 倍计费,5 分钟 cache write 是 1.25 倍,1 小时 cache write 是 2 倍。对于 Claude Code、代码仓库分析、长 system prompt、多工具 Agent,缓存命中率高时体感成本会大幅下降。

Gemini 也提供 implicit caching 和 explicit caching。官方文档说明 Gemini 2.5 及更新模型默认启用 implicit caching,explicit caching 可手动启用并提供更确定的成本节省。

2.3 Flex / Priority / Data Residency / 区域路由

官方价格不只有一个档位。OpenAI 价格页展示了 Standard、Batch、Data residency 等处理模式,并说明 Flex processing 用更慢响应和偶发资源不可用换取更低成本。

Anthropic 对数据驻留、云市场、区域/多区域端点有不同价格口径。Google Gemini 价格页也区分 Standard、Batch、Flex、Priority。

因此,一个服务商如果只承诺“低优先级任务更便宜”,可能只是把请求路由到官方的低价处理层;但如果它承诺所有实时高质量请求都长期 1 折,就需要怀疑其他来源。

2.4 企业折扣、承诺消费和云市场

大客户可能通过年度承诺、保底消费、云市场私有报价获得折扣。正规的聚合器或企业代理可能把一部分折扣让给用户,也可能通过统一账单降低采购成本。

但这类折扣通常有合同、发票、DPA、审计、服务条款,不会只靠 Telegram、淘宝、个人收款和一个 base_url 解释清楚。

2.5 低价模型本来就便宜

DeepSeek、Gemini Flash-Lite、Claude Haiku、OpenAI mini/nano 系列和部分开源模型本来就低价。中转服务把“模型族”做成统一入口后,用户容易把便宜模型的价格误解成“顶级官方模型打了巨大折扣”。

例如 DeepSeek 官方价格页在 2026-05-13 显示,deepseek-v4-flash 的 cache hit input 价格远低于多数闭源旗舰模型;deepseek-v4-pro 还存在限时 75% 折扣。这是供应商定价差异,不是中转技术魔法。

3. 合法中转服务是怎么实现的

从工程上看,中转服务并不神秘,本质是一个 LLM Gateway。

3.1 协议兼容:只改 base_url

大部分中转站让用户只改一行:

from openai import OpenAI

client = OpenAI(
api_key="sk-proxy-xxx",
base_url="https://proxy.example.com/v1",
)

网关侧实现 OpenAI-compatible 或 Anthropic-compatible HTTP 接口,再把请求转换到真实上游。LiteLLM 文档明确把统一接口、成本追踪、认证、预算、负载均衡作为 Proxy 能力;vLLM 也可以直接启动 OpenAI-compatible server,让自托管模型用 OpenAI SDK 调用。

3.2 虚拟 Key 与账本

中转服务不会把上游真实 Key 暴露给客户,而是发自己的虚拟 Key。服务端维护:

  • proxy_key -> tenant_id
  • tenant_id -> budget / rate limit / allowed_models
  • model_alias -> upstream provider / deployment
  • request_id -> token_usage / cost / latency / status

LiteLLM 的 virtual keys 支持 spend tracking、model access、预算、RPM/TPM 等控制。Cloudflare AI Gateway 也提供 analytics、logging、rate limiting、request retries、model fallback 等能力。

3.3 模型路由

路由器会按价格、延迟、可用性、地域、上下文长度、工具调用支持、数据政策选择上游。

典型策略:

  • 同一模型多账号、多 region、多 deployment 负载均衡。
  • 上游 429 / 5xx 时 fallback 到备用 provider。
  • 低价值请求路由到便宜模型,高价值请求路由到强模型。
  • 超长上下文请求路由到长上下文模型。
  • tool_choice、JSON mode、vision、audio 等参数做能力匹配。

OpenRouter 文档描述了按 provider 排序、fallback、价格优先、吞吐/延迟优先、ZDR 过滤等能力。Cloudflare Dynamic Routing 也支持条件、配额、预算限制、模型 fallback 和版本回滚。

3.4 缓存与批处理

正规网关会尽量利用合法缓存:

  • 对完全相同请求做 response cache。
  • 把稳定 system prompt、工具 schema、仓库上下文放在 prompt cache 前缀。
  • 把离线任务聚合进 Batch API。
  • 对工具结果、RAG 检索结果、网页抓取结果做业务缓存。

Cloudflare AI Gateway 文档说明其缓存可对相同请求直接从 Cloudflare cache 返回,减少上游付费请求。注意这类缓存只适合低风险、非个性化、无敏感输入的场景。

3.5 自托管兼容模型

有些中转服务不是真的转发到官方模型,而是用 vLLM 这类推理服务托管开源模型,然后伪装成 OpenAI-compatible API。这本身可以合法,但必须明确标注底层模型。

问题在于灰产服务可能把“兼容接口”包装成“官方同模型”。技术上你看到的是 /v1/chat/completions,但底层可能是 Qwen、GLM、DeepSeek、Llama 或量化小模型。

4. 灰产中转为什么能低到离谱

根据 ChinaTalk 2026-05-05 对 Claude “transfer station / 中转站”生态的调查,以及 Anthropic 2026-02-23 关于 distillation attacks 的披露,异常低价主要来自以下组合。

4.1 免费额度和优惠套利

灰产上游可能批量注册账号,薅免费额度、教育/创业计划、促销 credit、云市场赠金或地区折扣。单个账号额度不大,但账号池足够大时可以摊薄成本。

这类方式很容易被官方风控识别和封禁,所以服务质量会表现为:时好时坏、频繁换域名、换 Key、换模型名、突然下线。

4.2 订阅拆分

部分服务会把 Claude Max、ChatGPT、Gemini 等面向个人或团队的订阅拆成 API 形式转卖,给每个用户分配 token/hour 或并发额度。

这里的套利点是:订阅是固定月费,而官方 API 是按 token 计费。只要使用模式、并发和限制没有被平台及时识别,中转方就能短期获得价差。

但这通常违反服务条款,也不适合生产系统。订阅产品的速率、上下文、工具、会话状态和 API SLA 也不等价。

4.3 盗刷、盗号和虚假身份

更黑的成本来源是盗刷信用卡、购买被盗账号、批量身份验证、短信平台和 KYC 绕过。Anthropic 披露过工业级蒸馏攻击,涉及约 24,000 个欺诈账号和超过 1,600 万次 exchanges;其中还提到单一代理网络曾同时管理超过 20,000 个欺诈账号。

这类服务的价格可以极低,因为成本最终由被盗账号、被盗信用卡、上游平台和下游用户承担。

4.4 模型替换和“掺水”

用户请求 claude-opus,中转方可以实际转到:

  • Claude Sonnet / Haiku
  • Gemini Flash / Flash-Lite
  • DeepSeek / Qwen / GLM
  • 自托管量化模型
  • 过期旧模型

由于 API 响应里的 model 字段可以被中转服务重写,普通用户很难仅凭返回字段证明底层模型。只有复杂推理、工具调用、长上下文和固定评测集才能暴露差异。

这也是很多低价站的核心利润来源:按旗舰模型收费,实际消耗小模型成本。

4.5 Token 计费不透明

中转方还可以通过计费层赚钱:

  • 夸大 input/output token 数。
  • 缓存命中按未缓存价格卖给用户。
  • 官方 Batch 50% 成本按实时价格卖给用户。
  • 把失败请求、重试请求、工具调用重复计费。
  • 用人民币、美元、点数、倍率混合定价,让真实单价不可比较。

如果平台不提供原始 usage、上游发票映射、请求级成本明细,用户无法审计。

4.6 日志变现

最危险的一层是:用户的 prompt、output、tool calls、代码上下文、错误日志和人工修正结果本身就是资产。

对代码 Agent 来说,这些日志可能包含:

  • 私有仓库代码。
  • API Key、数据库连接串、内部域名。
  • 真实 bug、修复方案、测试结果。
  • 开发者偏好和业务逻辑。
  • Agent 多轮轨迹和高质量 reasoning 样本。

ChinaTalk 的调查指出,日志可能进入训练数据、数据中介、诈骗或勒索链条。这个机制解释了为什么某些中转站可以低到 1 折甚至更低:用户同时是付费客户,也是数据供应方。

4.7 短期补贴和资金盘

还有一类低价不是来自技术,而是获客补贴。服务方先低价吸引开发者充值,积累余额和代理层级,然后涨价、限制提现、封号或直接跑路。

判断标准很简单:如果价格低到不能被官方折扣、缓存、Batch、企业价解释,又没有合同、发票、审计和数据条款,那它大概率需要从别处赚钱。

5. 和官方 API 的真实差异

维度官方 API正规网关高风险中转站
模型真实性最高,可直接从供应商获得取决于合同和路由透明度可能被替换或降级
数据处理有官方数据政策和企业条款取决于网关 DPA、日志和 BYOK 模式不可验证,常见日志留存
稳定性受官方 SLA/状态页约束取决于多供应商和自身架构账号池封禁会导致波动
成本透明,可审计可能有 markup,也可能通过路由降本价格低但计费不可审计
合规最清晰要审查供应链高风险
故障定位可直接看官方 request id / status需要网关透传和 trace很难定位

6. 条款红线

官方 API 的“可集成”和“可倒卖”不是一回事。

OpenAI Services Agreement 允许客户把 API 集成进自己的应用并提供给终端用户,但同时限制账号凭证共享、账号访问转售、API Key 买卖/转让、绕过 rate limits 或 usage limits。也就是说,一个 SaaS 产品调用 OpenAI API 服务自己的用户,和把 OpenAI Key 包成低价中转站转卖,是两种不同法律关系。

Anthropic Commercial Terms 也要求客户遵守支持地区、使用政策和身份核验要求,并限制未经明确批准转售服务或使用服务训练竞争模型。

合规中转通常需要至少满足以下条件:

  • 有上游授权、reseller / partner / marketplace 合同,或客户自带 Key。
  • 能说明终端用户、数据处理者、子处理方和责任边界。
  • 不共享、买卖、租借上游账号或 API Key。
  • 不绕过地理限制、身份验证、速率限制和安全策略。
  • 不把用户日志用于未授权训练、转卖或画像。

7. 如何判断一个中转 API 是否可信

7.1 看价格能否被合法机制解释

可以接受的解释:

  • “Batch 异步任务 50% 折扣。”
  • “缓存命中部分按 cached input 计费。”
  • “低价值请求路由到 Haiku / Flash / mini / DeepSeek。”
  • “企业合同折扣,有发票和 DPA。”
  • “自托管开源模型,明确不是官方闭源模型。”

高风险说法:

  • “官方原版模型,长期 1 折。”
  • “免实名、免风控、无限量、不会封。”
  • “所有模型一个价。”
  • “国内个人收款,无法开票,但企业级安全。”
  • “不展示上游 provider、request id、usage 明细。”

7.2 要求可审计证据

生产使用前至少要问:

  • 是否支持 BYOK?如果托管 Key,上游是谁?
  • 是否能给出供应商合同、授权转售证明或云市场私有报价?
  • 是否有 DPA、数据保留期、日志脱敏策略、删除机制?
  • 是否支持关闭 prompt/output 日志?
  • 是否透传上游 request id、model id、usage token?
  • 是否能按租户导出账单和 trace?
  • 是否有 SOC 2、ISO 27001 或等价审计?
  • 是否有明确的 breach notification 和子处理方列表?

7.3 用评测而不是“感觉像”

模型替换很难靠闲聊识别。建议准备固定评测集:

  • 长上下文检索:放入私有 canary 文本,检查引用和定位能力。
  • 工具调用:验证 JSON schema、parallel tool calls、错误恢复。
  • 复杂代码任务:固定 repo、固定测试、比较成功率。
  • 多语言和专业任务:用官方 API 做 baseline。
  • 计费对照:同样 prompt 对比 token usage、延迟、输出长度。

不要用“你是谁”“你是不是 Claude”判断模型真实性,这些都能被 system prompt 或响应重写骗过。

7.4 把输入视为会被第三方看到

未知中转站不适合输入:

  • 私有源代码和未发布产品方案。
  • 客户数据、合同、财务、医疗、法务内容。
  • API Key、Token、cookie、数据库连接串。
  • 内部接口、日志、漏洞细节。
  • 可识别个人信息。

实验阶段也应使用脱敏数据、假密钥、最小权限和单独预算。

8. 工程建议

8.1 生产系统

优先级建议:

  1. 官方 API 或官方云市场入口。
  2. 有合同、DPA、审计、BYOK、透明路由的正规 AI Gateway。
  3. 自建 LiteLLM / Cloudflare AI Gateway / Kong / Envoy 风格网关,自己管理供应商 Key。
  4. 明确标注模型来源的自托管开源模型。

不要把企业 Agent、代码 Agent、客服 Agent、RAG、内部知识库接入无法审计的低价中转站。

8.2 成本优化

真正可持续的降本路径:

  • 分层模型路由:简单任务走便宜模型,复杂任务升级。
  • Prompt caching:把稳定上下文放在前缀,提升 cache hit。
  • Batch API:离线评测、批量抽取、数据处理异步化。
  • 控制上下文:不要把完整历史和完整文档无脑塞给模型。
  • 工具结果缓存:搜索、网页抓取、数据库查询做 TTL。
  • 成本账本:按 tenant_id / feature / model / request_id 记录真实成本。
  • 回归评测:以 cost per successful task 而不是 token 单价决策。

8.3 个人测试

如果只是个人探索,低价中转可以当“不可信网络服务”看待:

  • 不放真实密钥。
  • 不上传私有代码。
  • 不绑定主邮箱、主手机号、主支付账号。
  • 不长期充值。
  • 不把输出用于高风险决策。
  • 关键任务用官方 API 复核。

9. 核心判断框架

中转价差 = 官方可用折扣
+ 网关路由优化
+ 企业采购折扣
+ 模型降级/替换
+ 计费不透明
+ 账号/订阅/额度套利
+ 用户数据变现
+ 短期补贴或欺诈

前三项可以合规,后五项是主要风险来源。价格越低,越需要解释它属于哪一项。

10. 参考资料