Fireworks AI

Fireworks AI 是一个领先的生成式 AI 基础设施平台，专注于通过优化的推理能力提供卓越性能。凭借比其他平台快达 4 倍的推理速度和对 40 多种不同 AI 模型的支持，Fireworks 消除了大规模运行 AI 模型的操作复杂性。 网站： https://fireworks.ai/

获取 API 密钥

注册/登录： 访问 Fireworks AI 并创建账户或登录。
导航到 API 密钥： 在您的仪表板中访问 API 密钥部分。
创建密钥： 生成新的 API 密钥。给它一个描述性名称（如”Cline”）。
复制密钥： 立即复制 API 密钥。安全保存。

支持的模型

Fireworks AI 支持各种类别的广泛模型。热门模型包括： 文本生成模型：

Llama 3.1 系列（8B、70B、405B）
Mixtral 8x7B 和 8x22B
Qwen 2.5 系列
具有推理能力的 DeepSeek 模型
用于编程任务的 Code Llama 模型

视觉模型：

Llama 3.2 Vision 模型
Qwen 2-VL 模型

嵌入模型：

各种用于语义搜索的文本嵌入模型

该平台为最大性能筛选、优化和部署具有自定义内核和推理优化的模型。

在 Cline 中配置

打开 Cline 设置： 点击 Cline 面板中的设置图标（⚙️）。
选择提供商： 从”API Provider”下拉菜单中选择”Fireworks”。
输入 API 密钥： 将您的 Fireworks API 密钥粘贴到”Fireworks API Key”字段中。
输入模型 ID： 指定您想使用的模型（例如，“accounts/fireworks/models/llama-v3p1-70b-instruct”）。
配置 Token： 可选择性地设置最大完成 token 和上下文窗口大小。

Fireworks AI 的性能焦点

Fireworks AI 的竞争优势集中在性能优化和开发者体验：

超高速推理

比其他平台快达 4 倍的推理
比开源推理引擎高 250% 的吞吐量
50% 更快的速度，显著降低延迟
比 HuggingFace Endpoints 成本低 6 倍，生成速度快 2.5 倍

先进的优化技术

自定义内核和推理优化提高每个 GPU 的吞吐量
多 LoRA 架构实现高效资源共享
数百个微调模型变体可以在共享基础模型基础设施上运行
轻资产模型专注于优化软件而非昂贵的 GPU 所有权

全面的模型支持

40+ 种不同的 AI 模型经过筛选和性能优化
支持多种 GPU 类型：A100、H100、H200、B200、AMD MI300X
按 GPU 秒计费，启动时间不额外收费
OpenAI API 兼容性，无缝集成

定价结构

Fireworks AI 使用基于使用量的定价模型，具有竞争力的费率：

文本和视觉模型（2025）

参数数量	每百万输入 Token 价格
少于 4B 参数	$0.10
4B - 16B 参数	$0.20
超过 16B 参数	$0.90
MoE 0B - 56B 参数	$0.50

微调服务

基础模型大小	每百万训练 Token 价格
高达 16B 参数	$0.50
16.1B - 80B 参数	$3.00
DeepSeek R1 / V3	$10.00

专用部署

GPU 类型	每小时价格
A100 80GB	$2.90
H100 80GB	$5.80
H200 141GB	$6.99
B200 180GB	$11.99
AMD MI300X	$4.99

特殊功能

微调能力

Fireworks 提供通过 CLI 界面访问的复杂微调服务，支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。

开发者体验

浏览器游乐场用于直接模型交互
REST API具有 OpenAI 兼容性
综合说明书提供现成的配方
多种部署选项从无服务器到专用 GPU

企业功能

HIPAA 和 SOC 2 Type II 合规性适用于受监管行业
开发者自助入门
企业销售用于更大规模部署
后付费计费选项和商业层级

推理模型支持

高级支持推理模型，具有 <think> 标签处理和推理内容提取功能，使复杂的多步推理在实时应用中变得实用。

性能优势

Fireworks AI 的优化提供了可衡量的改进：

比开源引擎高 250% 的吞吐量
50% 更快的速度，降低延迟
比替代方案成本降低 6 倍
每个请求生成速度提高 2.5 倍

提示和注意事项

模型选择： 根据您的具体用例选择模型——小模型用于速度，大模型用于复杂推理。
性能焦点： Fireworks 通过先进优化擅长使 AI 推理快速且经济。
微调： 利用微调能力用您的专有数据提高模型准确性。
合规性： HIPAA 和 SOC 2 Type II 合规性使其能够用于受监管行业。
定价模型： 基于使用量的定价随您的成功而扩展，而非传统的按座位模型。
开发者资源： 广泛的文档和说明书配方加速实施。
GPU 选项： 多种 GPU 类型可用于基于性能需求的专用部署。

快速入门

提升提示技巧

功能特性

探索 Cline 工具

企业解决方案

MCP 服务器

提供商配置

本地运行模型

故障排除

更多信息

Fireworks AI

获取 API 密钥

支持的模型

在 Cline 中配置

Fireworks AI 的性能焦点

超高速推理

先进的优化技术

全面的模型支持

定价结构

文本和视觉模型（2025）

微调服务

专用部署

特殊功能

微调能力

开发者体验

企业功能

推理模型支持

性能优势

提示和注意事项

快速入门

提升提示技巧

功能特性

探索 Cline 工具

企业解决方案

MCP 服务器

提供商配置

本地运行模型

故障排除

更多信息

​获取 API 密钥

​支持的模型

​在 Cline 中配置

​Fireworks AI 的性能焦点

​超高速推理

​先进的优化技术

​全面的模型支持

​定价结构

​文本和视觉模型（2025）

​微调服务

​专用部署

​特殊功能

​微调能力

​开发者体验

​企业功能

​推理模型支持

​性能优势

​提示和注意事项

获取 API 密钥

支持的模型

在 Cline 中配置

Fireworks AI 的性能焦点

超高速推理

先进的优化技术

全面的模型支持

定价结构

文本和视觉模型（2025）

微调服务

专用部署

特殊功能

微调能力

开发者体验

企业功能

推理模型支持

性能优势

提示和注意事项