获取 API 密钥
- 注册/登录: 访问 Fireworks AI 并创建账户或登录。
- 导航到 API 密钥: 在您的仪表板中访问 API 密钥部分。
- 创建密钥: 生成新的 API 密钥。给它一个描述性名称(如”Cline”)。
- 复制密钥: 立即复制 API 密钥。安全保存。
支持的模型
Fireworks AI 支持各种类别的广泛模型。热门模型包括: 文本生成模型:- Llama 3.1 系列(8B、70B、405B)
- Mixtral 8x7B 和 8x22B
- Qwen 2.5 系列
- 具有推理能力的 DeepSeek 模型
- 用于编程任务的 Code Llama 模型
- Llama 3.2 Vision 模型
- Qwen 2-VL 模型
- 各种用于语义搜索的文本嵌入模型
在 Cline 中配置
- 打开 Cline 设置: 点击 Cline 面板中的设置图标(⚙️)。
- 选择提供商: 从”API Provider”下拉菜单中选择”Fireworks”。
- 输入 API 密钥: 将您的 Fireworks API 密钥粘贴到”Fireworks API Key”字段中。
- 输入模型 ID: 指定您想使用的模型(例如,“accounts/fireworks/models/llama-v3p1-70b-instruct”)。
- 配置 Token: 可选择性地设置最大完成 token 和上下文窗口大小。
Fireworks AI 的性能焦点
Fireworks AI 的竞争优势集中在性能优化和开发者体验:超高速推理
- 比其他平台快达 4 倍的推理
- 比开源推理引擎高 250% 的吞吐量
- 50% 更快的速度,显著降低延迟
- 比 HuggingFace Endpoints 成本低 6 倍,生成速度快 2.5 倍
先进的优化技术
- 自定义内核和推理优化提高每个 GPU 的吞吐量
- 多 LoRA 架构实现高效资源共享
- 数百个微调模型变体可以在共享基础模型基础设施上运行
- 轻资产模型专注于优化软件而非昂贵的 GPU 所有权
全面的模型支持
- 40+ 种不同的 AI 模型经过筛选和性能优化
- 支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X
- 按 GPU 秒计费,启动时间不额外收费
- OpenAI API 兼容性,无缝集成
定价结构
Fireworks AI 使用基于使用量的定价模型,具有竞争力的费率:文本和视觉模型(2025)
| 参数数量 | 每百万输入 Token 价格 |
|---|---|
| 少于 4B 参数 | $0.10 |
| 4B - 16B 参数 | $0.20 |
| 超过 16B 参数 | $0.90 |
| MoE 0B - 56B 参数 | $0.50 |
微调服务
| 基础模型大小 | 每百万训练 Token 价格 |
|---|---|
| 高达 16B 参数 | $0.50 |
| 16.1B - 80B 参数 | $3.00 |
| DeepSeek R1 / V3 | $10.00 |
专用部署
| GPU 类型 | 每小时价格 |
|---|---|
| A100 80GB | $2.90 |
| H100 80GB | $5.80 |
| H200 141GB | $6.99 |
| B200 180GB | $11.99 |
| AMD MI300X | $4.99 |
特殊功能
微调能力
Fireworks 提供通过 CLI 界面访问的复杂微调服务,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。开发者体验
- 浏览器游乐场用于直接模型交互
- REST API具有 OpenAI 兼容性
- 综合说明书提供现成的配方
- 多种部署选项从无服务器到专用 GPU
企业功能
- HIPAA 和 SOC 2 Type II 合规性适用于受监管行业
- 开发者自助入门
- 企业销售用于更大规模部署
- 后付费计费选项和商业层级
推理模型支持
高级支持推理模型,具有<think> 标签处理和推理内容提取功能,使复杂的多步推理在实时应用中变得实用。
性能优势
Fireworks AI 的优化提供了可衡量的改进:- 比开源引擎高 250% 的吞吐量
- 50% 更快的速度,降低延迟
- 比替代方案成本降低 6 倍
- 每个请求生成速度提高 2.5 倍
提示和注意事项
- 模型选择: 根据您的具体用例选择模型——小模型用于速度,大模型用于复杂推理。
- 性能焦点: Fireworks 通过先进优化擅长使 AI 推理快速且经济。
- 微调: 利用微调能力用您的专有数据提高模型准确性。
- 合规性: HIPAA 和 SOC 2 Type II 合规性使其能够用于受监管行业。
- 定价模型: 基于使用量的定价随您的成功而扩展,而非传统的按座位模型。
- 开发者资源: 广泛的文档和说明书配方加速实施。
- GPU 选项: 多种 GPU 类型可用于基于性能需求的专用部署。

