In ambito di modelli linguistici di grandi dimensioni (LLM, Large Language Models), RAG sta per Retrieval-Augmented Generation (Generazione Aumentata dal Recupero di Informazioni).
Cos’è il RAG?
Il RAG è una tecnica ibrida che combina:
- Retrieval (Recupero di informazioni) – L’LLM cerca informazioni rilevanti in una fonte esterna (come un database, documenti o un motore di ricerca) prima di generare una risposta.
- Augmented Generation (Generazione aumentata) – L’LLM utilizza le informazioni recuperate per produrre una risposta più accurata e contestualmente rilevante.
Come funziona?
- Input dell’utente: Riceve una domanda o un prompt.
- Fase di Retrieval: Cerca in un database esterno (es. Wikipedia, documenti aziendali, knowledge base) i testi più pertinenti.
- Fase di Generazione: L’LLM integra le informazioni recuperate nel suo processo di generazione, producendo una risposta più precisa e aggiornata.
Vantaggi del RAG
✔ Migliora l’accuratezza – Riduce il rischio di “allucinazioni” (risposte inventate) fornendo dati verificati.
✔ Aggiornabilità dinamica – Non richiede riaddestramento del modello: basta aggiornare la knowledge base esterna.
✔ Efficienza – Più economico rispetto al fine-tuning continuo di un LLM.
Esempi di applicazioni
- Chatbot aziendali che rispondono basandosi su documenti interni.
- Assistenti virtuali che forniscono informazioni aggiornate (es. notizie, dati tecnici).
- Sistemi di Q&A in ambito medico/legale, dove l’accuratezza è cruciale.
Differenza tra RAG e Fine-Tuning
- Fine-Tuning: Modifica i pesi del modello per adattarlo a un dominio specifico (costoso e statico).
- RAG: Mantiene il modello invariato ma lo “alimenta” con dati esterni al momento della query (flessibile e dinamico).
In sintesi, il RAG permette agli LLM di essere più precisi e aggiornati senza modifiche strutturali, sfruttando fonti esterne contestuali.