Compression Archives

LLMLingua: Efficient Token Removal for Large Language Models

Posted by Fede Nolasco | Mar 18, 2024 | Prompt Engineering, TLRD

LLMLingua uses a compact language model to remove unnecessary tokens in prompts, leading to efficient inference with large language models and up to 20x compression without significant performance loss.