L’Attention de requ??te group??e (GQA) est une technique utilis??e dans les grands mod??les de langage pour acc??l??rer le temps d’inf??rence. Elle regroupe les requ??tes ensemble et calcule leur attention conjointement, r??duisant la complexit?? computationnelle et rendant le mod??le plus efficace.
Par exemple, si un mod??le de langage doit traiter une s??rie de requ??tes de type ‘What is the capital of France?’, GQA peut groupiser ces requ??tes ensemble et les traiter en une seule et m??me fois, r??duisant le temps d’inference n??cessaire.