L’Attention de requête groupée (GQA) est une technique utilisée dans les grands modèles de langage pour accélérer le temps d’inférence. Elle regroupe les requêtes ensemble et calcule leur attention conjointement, réduisant la complexité computationnelle et rendant le modèle plus efficace.
Par exemple, si un modèle de langage doit traiter une série de requêtes de type ‘What is the capital of France?’, GQA peut groupiser ces requêtes ensemble et les traiter en une seule et même fois, réduisant le temps d’inference nécessaire.