2026 全球海外大模型 API 羊毛全攻略

Free LLM API resources

本列表收录了各种提供免费访问或赠送 API 额度的大型语言模型服务。

免费提供商OpenRouterGoogle AI StudioNVIDIA NIMMistral (La Plateforme)Mistral (Codestral)HuggingFace Inference ProvidersVercel AI GatewayOpenCode ZenCerebrasGroqCohereGitHub ModelsCloudflare Workers AI
提供试用额度的提供商FireworksBasetenNebiusNovitaAI21UpstageNLP CloudAlibaba Cloud (International) Model StudioModalInference.netHyperbolicSambaNova CloudScaleway Generative APIs

免费提供商

OpenRouter

限制：

20 requests/minute<br>50 requests/day<br>终身充值 10 美元后每天最多 1000 次请求

各模型共享公共配额。

<table><thead><tr><th>Model Name</th><th>Model Limits</th></tr></thead><tbody><tr><td>Gemini 3 Flash</td><td>250,000 tokens/minute<br>20 requests/day<br>5 requests/minute</td></tr><tr><td>Gemini 3.1 Flash-Lite</td><td>250,000 tokens/minute<br>500 requests/day<br>15 requests/minute</td></tr><tr><td>Gemini 2.5 Flash</td><td>250,000 tokens/minute<br>20 requests/day<br>5 requests/minute</td></tr><tr><td>Gemini 2.5 Flash-Lite</td><td>250,000 tokens/minute<br>20 requests/day<br>10 requests/minute</td></tr><tr><td>Gemini 3.1 Flash TTS</td><td>10,000 tokens/minute<br>10 requests/day<br>3 requests/minute</td></tr><tr><td>Gemini 2.5 Flash TTS</td><td>10,000 tokens/minute<br>10 requests/day<br>3 requests/minute</td></tr><tr><td>Gemini Robotics-ER 1.6</td><td>250,000 tokens/minute<br>20 requests/day<br>5 requests/minute</td></tr><tr><td>Gemini Robotics-ER 1.5</td><td>250,000 tokens/minute<br>20 requests/day<br>10 requests/minute</td></tr><tr><td>Gemma 3 27B Instruct</td><td>15,000 tokens/minute<br>14,400 requests/day<br>30 requests/minute</td></tr><tr><td>Gemma 3 12B Instruct</td><td>15,000 tokens/minute<br>14,400 requests/day<br>30 requests/minute</td></tr><tr><td>Gemma 3 4B Instruct</td><td>15,000 tokens/minute<br>14,400 requests/day<br>30 requests/minute</td></tr><tr><td>Gemma 3 1B Instruct</td><td>15,000 tokens/minute<br>14,400 requests/day<br>30 requests/minute</td></tr></tbody></table>

NVIDIA NIM

需要验证手机号码。模型的上下文窗口通常受限。

限制： 40 requests/minute

各种开源模型

Mistral (La Plateforme)

免费计划（Experiment plan）需要同意将数据用于训练
需要验证手机号码。

限制（每个模型）： 1 request/second, 500,000 tokens/minute, 1,000,000,000 tokens/month

Mistral 开源与专有模型

Mistral (Codestral)

目前免费使用
基于月度订阅
需要验证手机号码

限制： 30 requests/minute, 2,000 requests/day

Codestral

HuggingFace Inference Providers

HuggingFace Serverless Inference 仅限于小于 10GB 的模型。一些热门模型即使超过 10GB 也受支持。

限制：$0.10/month in credits

各受支持提供商的各种开源模型

Vercel AI Gateway

路由至各种受支持的提供商。

限制：$5/month

OpenCode Zen

包含精选模型的 AI 网关。

免费模型可能会使用数据进行改进。

Big Pickle Stealth
MiniMax M2.5 Free
Arcee Large Preview Free

Cerebras

<table><thead><tr><th>Model Name</th><th>Model Limits</th></tr></thead><tbody><tr><td>gpt-oss-120b</td><td>30 requests/minute<br>60,000 tokens/minute<br>900 requests/hour<br>1,000,000 tokens/hour<br>14,400 requests/day<br>1,000,000 tokens/day</td></tr><tr><td>Llama 3.1 8B</td><td>30 requests/minute<br>60,000 tokens/minute<br>900 requests/hour<br>1,000,000 tokens/hour<br>14,400 requests/day<br>1,000,000 tokens/day</td></tr></tbody></table>

Groq

<table><thead><tr><th>Model Name</th><th>Model Limits</th></tr></thead><tbody><tr><td>Allam 2 7B</td><td>7,000 requests/day<br>6,000 tokens/minute</td></tr><tr><td>Llama 3.1 8B</td><td>14,400 requests/day<br>6,000 tokens/minute</td></tr><tr><td>Llama 3.3 70B</td><td>1,000 requests/day<br>12,000 tokens/minute</td></tr><tr><td>Llama 4 Scout Instruct</td><td>1,000 requests/day<br>30,000 tokens/minute</td></tr><tr><td>Whisper Large v3</td><td>7,200 audio-seconds/minute<br>2,000 requests/day</td></tr><tr><td>Whisper Large v3 Turbo</td><td>7,200 audio-seconds/minute<br>2,000 requests/day</td></tr><tr><td>canopylabs/orpheus-arabic-saudi</td><td></td></tr><tr><td>canopylabs/orpheus-v1-english</td><td></td></tr><tr><td>groq/compound</td><td>250 requests/day<br>70,000 tokens/minute</td></tr><tr><td>groq/compound-mini</td><td>250 requests/day<br>70,000 tokens/minute</td></tr><tr><td>meta-llama/llama-prompt-guard-2-22m</td><td></td></tr><tr><td>meta-llama/llama-prompt-guard-2-86m</td><td></td></tr><tr><td>openai/gpt-oss-120b</td><td>1,000 requests/day<br>8,000 tokens/minute</td></tr><tr><td>openai/gpt-oss-20b</td><td>1,000 requests/day<br>8,000 tokens/minute</td></tr><tr><td>openai/gpt-oss-safeguard-20b</td><td>1,000 requests/day<br>8,000 tokens/minute</td></tr><tr><td>qwen/qwen3-32b</td><td>1,000 requests/day<br>6,000 tokens/minute</td></tr></tbody></table>