免费模型
本文档罗列目前可用的免费大模型服务,以及它们的主要特点和限制。
OpenRouter 免费模型
可用模型
| 模型 | 提供商 | 上下文长度 | 免费额度 | 限制 |
|---|---|---|---|---|
| meta-llama/Llama-3.1-8B-Instruct | Llama | 8K | 每天数千万 tokens | 需要 Cloudflare 账户 |
| meta-llama/Meta-Llama-3.1-70B-Instruct | Llama | 8K | 较少 | 需申请访问权限 |
| google/gemini-2.0-flash-_exp | 1M | 每天 1K tokens | 需 Google 账户 | |
| qwen/qwen-vl-plus | Qwen | 8K | 每天 1M tokens | 需屏蔽图片 |
限制
- 速率限制:每分钟最多 1-2 次请求
- 并发数:通常限制为 1 至 5
- Token 上限:每天配额有限,超出需付费
- 模型访问:部分模型需单独申请权限
Gemini 免费层
特性
- 模型:Gemini 2.0 Flash、Gemini 1.5 Pro
- 上下文:支持长上下文(最多 1M tokens)
- 免费额度:每分钟 1K tokens,每个项目配额有限
限制
- 使用量限制:每天最大 1K 万 token
- 并发:最多 5 个并发请求
- 寿命:免费层账号可能回收
Groq 免费模型
可用模型
| 模型 | 大小 | 速度 | 特点 |
|---|---|---|---|
| llama-3.3-70b-versatile | 70B | 极快 | 支持工具调用 |
| llama-3.1-8b-instant | 8B | 极速 | 适合简单问答 |
| gemma2-9b-it | 9B | 快速 | 数学推理优秀 |
限制
- 每天:最多 1K 万 token
- 并发:限制为 3
- 速率:每分钟最多 30 次请求
使用建议
开发测试
- 优先选择 Groq(速度最快)
- 使用 OpenRouter 进行模型比较
生产场景
- 评估具体需求后选择付费服务
- 考虑 Gemini 长上下文场景
- 参考成本与性能权衡
常见问题
Q: 免费模型是否可以商业使用?
A: 遵循每个平台的许可证条款,Llama 等开源模型可商用,Gemini 和 Groq 的免费层需确认服务条款。
Q: 如何切换免费模型?
A: 在 .env 配置文件中修改 MODEL_NAME,参考 OpenRouter 格式:openrouter/free/model-name