获取 API 密钥
- 注册/登录: 前往 Groq 创建账户或登录。
- 导航到控制台: 前往 Groq 控制台 访问您的仪表板。
- 创建密钥: 导航到 API 密钥部分并创建新的 API 密钥。为您的密钥提供描述性名称(例如 “Cline”)。
- 复制密钥: 立即复制 API 密钥。您将无法再次看到它。请安全存储。
支持的模型
Cline 支持以下 Groq 模型:llama-3.3-70b-versatile(Meta)- 具有 131K 上下文的平衡性能llama-3.1-8b-instant(Meta)- 具有 131K 上下文的快速推理openai/gpt-oss-120b(OpenAI)- 具有 131K 上下文的特色旗舰模型openai/gpt-oss-20b(OpenAI)- 具有 131K 上下文的特色紧凑模型moonshotai/kimi-k2-instruct(Moonshot AI)- 具有提示缓存的 1 万亿参数模型deepseek-r1-distill-llama-70b(DeepSeek/Meta)- 推理优化模型qwen/qwen3-32b(阿里云)- 增强问答任务meta-llama/llama-4-maverick-17b-128e-instruct(Meta)- 最新 Llama 4 变体meta-llama/llama-4-scout-17b-16e-instruct(Meta)- 最新 Llama 4 变体
在 Cline 中配置
- 打开 Cline 设置: 点击 Cline 面板中的设置图标(⚙️)。
- 选择提供商: 从 “API 提供商” 下拉菜单中选择 “Groq”。
- 输入 API 密钥: 将您的 Groq API 密钥粘贴到 “Groq API 密钥” 字段中。
- 选择模型: 从 “模型” 下拉菜单中选择您所需的模型。
Groq 的速度革命
Groq 的 LPU 架构相对于传统的基于 GPU 的推理提供了几个关键优势:LPU 架构
与从训练工作负载改编的 GPU 不同,Groq 的 LPU 专为推理而构建。这消除了在传统系统中造成延迟的架构瓶颈。无与伦比的速度
- 亚毫秒延迟,在流量、区域和工作负载中保持一致
- 静态调度,预计算执行图消除运行时协调延迟
- 张量并行,针对低延迟单一响应而非高吞吐量批处理进行优化
质量无妥协
- TruePoint 数值仅在不影响准确性的区域降低精度
- 100 位中间累积确保无损计算
- 策略精度控制在实现比 BF16 快 2-4 倍的同时保持质量
内存架构
- SRAM 作为主存储(不是缓存),片上数百兆字节
- 消除 DRAM/HBM 延迟,这困扰着传统加速器
- 实现真正的张量并行,通过将层分割到多个芯片上
特殊功能
提示缓存
Kimi K2 模型支持提示缓存,这可以显著降低重复提示的成本和延迟。视觉支持
选定的模型支持图像输入和视觉功能。在 Groq 控制台中检查模型详细信息以了解具体功能。推理模型
一些模型如 DeepSeek 变体提供增强的推理能力,具有逐步思考过程。提示和注意事项
- 模型选择: 根据您的具体用例和性能要求选择模型。
- 速度优势: Groq 在单请求延迟方面表现出色,而非高吞吐量批处理。
- OSS 模型提供商: Groq 在其快速基础设施上托管来自多个提供商(OpenAI、Meta、DeepSeek 等)的开源模型。
- 上下文窗口: 大多数模型提供大型上下文窗口(高达 131K 令牌)以包含大量代码和上下文。
- 价格: Groq 以其速度优势提供有竞争力的价格。查看 Groq 价格 页面了解当前费率。
- 速率限制: Groq 有慷慨的速率限制,但请查看其文档了解基于您使用层级的当前限制。

