Skip to main content
Fireworks AI 是一个领先的生成式 AI 基础设施平台,专注于通过优化的推理能力提供卓越性能。凭借比其他平台快达 4 倍的推理速度和对 40 多种不同 AI 模型的支持,Fireworks 消除了大规模运行 AI 模型的操作复杂性。 网站: https://fireworks.ai/

获取 API 密钥

  1. 注册/登录: 访问 Fireworks AI 并创建账户或登录。
  2. 导航到 API 密钥: 在您的仪表板中访问 API 密钥部分。
  3. 创建密钥: 生成新的 API 密钥。给它一个描述性名称(如”Cline”)。
  4. 复制密钥: 立即复制 API 密钥。安全保存。

支持的模型

Fireworks AI 支持各种类别的广泛模型。热门模型包括: 文本生成模型:
  • Llama 3.1 系列(8B、70B、405B)
  • Mixtral 8x7B 和 8x22B
  • Qwen 2.5 系列
  • 具有推理能力的 DeepSeek 模型
  • 用于编程任务的 Code Llama 模型
视觉模型:
  • Llama 3.2 Vision 模型
  • Qwen 2-VL 模型
嵌入模型:
  • 各种用于语义搜索的文本嵌入模型
该平台为最大性能筛选、优化和部署具有自定义内核和推理优化的模型。

在 Cline 中配置

  1. 打开 Cline 设置: 点击 Cline 面板中的设置图标(⚙️)。
  2. 选择提供商: 从”API Provider”下拉菜单中选择”Fireworks”。
  3. 输入 API 密钥: 将您的 Fireworks API 密钥粘贴到”Fireworks API Key”字段中。
  4. 输入模型 ID: 指定您想使用的模型(例如,“accounts/fireworks/models/llama-v3p1-70b-instruct”)。
  5. 配置 Token: 可选择性地设置最大完成 token 和上下文窗口大小。

Fireworks AI 的性能焦点

Fireworks AI 的竞争优势集中在性能优化和开发者体验:

超高速推理

  • 比其他平台快达 4 倍的推理
  • 比开源推理引擎高 250% 的吞吐量
  • 50% 更快的速度,显著降低延迟
  • 比 HuggingFace Endpoints 成本低 6 倍,生成速度快 2.5 倍

先进的优化技术

  • 自定义内核和推理优化提高每个 GPU 的吞吐量
  • 多 LoRA 架构实现高效资源共享
  • 数百个微调模型变体可以在共享基础模型基础设施上运行
  • 轻资产模型专注于优化软件而非昂贵的 GPU 所有权

全面的模型支持

  • 40+ 种不同的 AI 模型经过筛选和性能优化
  • 支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X
  • 按 GPU 秒计费,启动时间不额外收费
  • OpenAI API 兼容性,无缝集成

定价结构

Fireworks AI 使用基于使用量的定价模型,具有竞争力的费率:

文本和视觉模型(2025)

参数数量每百万输入 Token 价格
少于 4B 参数$0.10
4B - 16B 参数$0.20
超过 16B 参数$0.90
MoE 0B - 56B 参数$0.50

微调服务

基础模型大小每百万训练 Token 价格
高达 16B 参数$0.50
16.1B - 80B 参数$3.00
DeepSeek R1 / V3$10.00

专用部署

GPU 类型每小时价格
A100 80GB$2.90
H100 80GB$5.80
H200 141GB$6.99
B200 180GB$11.99
AMD MI300X$4.99

特殊功能

微调能力

Fireworks 提供通过 CLI 界面访问的复杂微调服务,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。

开发者体验

  • 浏览器游乐场用于直接模型交互
  • REST API具有 OpenAI 兼容性
  • 综合说明书提供现成的配方
  • 多种部署选项从无服务器到专用 GPU

企业功能

  • HIPAA 和 SOC 2 Type II 合规性适用于受监管行业
  • 开发者自助入门
  • 企业销售用于更大规模部署
  • 后付费计费选项和商业层级

推理模型支持

高级支持推理模型,具有 <think> 标签处理和推理内容提取功能,使复杂的多步推理在实时应用中变得实用。

性能优势

Fireworks AI 的优化提供了可衡量的改进:
  • 比开源引擎高 250% 的吞吐量
  • 50% 更快的速度,降低延迟
  • 比替代方案成本降低 6 倍
  • 每个请求生成速度提高 2.5 倍

提示和注意事项

  • 模型选择: 根据您的具体用例选择模型——小模型用于速度,大模型用于复杂推理。
  • 性能焦点: Fireworks 通过先进优化擅长使 AI 推理快速且经济。
  • 微调: 利用微调能力用您的专有数据提高模型准确性。
  • 合规性: HIPAA 和 SOC 2 Type II 合规性使其能够用于受监管行业。
  • 定价模型: 基于使用量的定价随您的成功而扩展,而非传统的按座位模型。
  • 开发者资源: 广泛的文档和说明书配方加速实施。
  • GPU 选项: 多种 GPU 类型可用于基于性能需求的专用部署。