> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-mintlify-d2fddb8a.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Limites de débit

> Limites de débit de l'API Venice — quotas de requêtes et de tokens par niveau, limites spécifiques aux modèles, en-têtes exposant la capacité restante, et comment gérer les réponses 429.

Les limites de débit varient selon le modèle et le niveau. Les limites par défaut ci-dessous constituent une référence utile, mais l'endpoint API `/api_keys/rate_limits` est la manière canonique de récupérer vos limites actuelles. Vous pouvez vérifier vos limites exactes à tout moment :

<CardGroup cols={2}>
  <Card title="Voir vos limites" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    Playground interactif
  </Card>

  <Card title="Journaux de limite de débit" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    Voir quelles requêtes ont atteint les limites
  </Card>
</CardGroup>

```bash theme={null}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## Limites par défaut

### Modèles de texte

Les modèles de texte sont regroupés en niveaux selon leur taille. Chaque carte de modèle sur la [page Modèles](/models/text) affiche son badge de niveau.

| Niveau | Requêtes/min | Tokens/min |
| :----- | -----------: | ---------: |
| XS     |          500 |  1 000 000 |
| S      |           75 |    750 000 |
| M      |           50 |    750 000 |
| L      |           20 |    500 000 |

<Accordion title="Quels modèles sont dans chaque niveau ?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### Autres modèles

| Type             | Requêtes/min |
| :--------------- | -----------: |
| Image            |           20 |
| Audio            |           60 |
| Embedding        |          500 |
| Vidéo (queue)    |           40 |
| Vidéo (retrieve) |          120 |

## Gestion des erreurs

Les requêtes échouées (500, 503, 429) doivent être relancées avec un backoff exponentiel.

Pour les erreurs 429 spécifiquement, consultez l'en-tête `x-ratelimit-reset-requests` pour l'horodatage Unix exact auquel vous pouvez réessayer. La plupart des bibliothèques HTTP disposent de mécanismes de relance intégrés qui gèrent cela automatiquement.

### Protection contre les abus

Si vous générez plus de 20 requêtes échouées en 30 secondes, l'API bloquera les requêtes suivantes pendant 30 secondes :

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## En-têtes de réponse

Chaque réponse inclut ces en-têtes :

| En-tête                          | Description                                                    |
| :------------------------------- | :------------------------------------------------------------- |
| `x-ratelimit-limit-requests`     | Nombre maximum de requêtes autorisées dans la fenêtre actuelle |
| `x-ratelimit-remaining-requests` | Requêtes restantes dans la fenêtre actuelle                    |
| `x-ratelimit-reset-requests`     | Horodatage Unix de réinitialisation de la fenêtre              |
| `x-ratelimit-limit-tokens`       | Nombre maximum de tokens autorisés par minute                  |
| `x-ratelimit-remaining-tokens`   | Tokens restants dans la minute actuelle                        |
| `x-ratelimit-reset-tokens`       | Secondes avant la réinitialisation de la limite de tokens      |

## Niveau Partenaire

Les partenaires obtiennent des limites de débit significativement plus élevées :

| Niveau | Requêtes/min | Tokens/min |
| :----- | -----------: | ---------: |
| XS     |          500 |  2 000 000 |
| S      |          150 |  1 500 000 |
| M      |          100 |  1 500 000 |
| L      |           60 |  1 000 000 |

| Type      | Requêtes/min |
| :-------- | -----------: |
| Image     |           60 |
| Audio     |          120 |
| Embedding |          500 |

Si vous atteignez constamment vos limites de débit et que vos modèles d'utilisation montrent une **demande soutenue dans le temps**, contactez-nous pour discuter de l'accès partenaire : [api@venice.ai](mailto:api@venice.ai).

Les limites du niveau partenaire peuvent être ajustées en fonction de vos besoins spécifiques.