Attention De Requête Groupée

L’Attention de requête groupée (GQA) est une technique utilisée dans les grands modèles de langage pour accélérer le temps d’inférence. Elle regroupe les requêtes ensemble et calcule leur attention conjointement, réduisant la complexité computationnelle et rendant le modèle plus efficace.

Attention De Requête Groupée

Areas of application

  • Traitement du langage naturel
  • Intelligence artificielle
  • Robotique
  • Traduction automatique
  • Systèmes de recommandation
  • Prévision de séries chronologiques
  • Systèmes de reconnaissance vocale
  • Big data

Example

Par exemple, si un modèle de langage doit traiter une série de requêtes de type ‘What is the capital of France?’, GQA peut groupiser ces requêtes ensemble et les traiter en une seule et même fois, réduisant le temps d’inference nécessaire.