Abbiamo visto nel precedente articolo (Ollama: portare l’Intelligenza Artificiale sul tuo laptop) quanto sia facile implementare un modello AI sulla nostra macchina locale. 
Uno degli aspetti più sorprendenti di Ollama è la sua efficienza: non serve un datacenter per far girare un modello linguistico generativo. Ma è anche vero che le prestazioni variano molto in base alla configurazione hardware. Ecco i principali elementi da considerare:
RAM
La RAM è fondamentale: i modelli in esecuzione con Ollama risiedono in memoria. Ecco una stima approssimativa per i modelli principali:
| Modello | Parametri | RAM minima consigliata | 
|---|---|---|
| Tiny (Phi, TinyLLaMA) | ~1B | 4 GB | 
| Mistral | 7B | 8–12 GB | 
| LLaMA 2 | 13B | 16–24 GB | 
| LLaMA 2 | 70B | 48 GB+ (non consigliato in locale) | 
Nota: su macOS con chip M1/M2, la gestione unificata della memoria consente di ottenere prestazioni migliori a parità di RAM nominale.
GPU (opzionale ma consigliata)
Ollama può funzionare anche in modalità CPU-only, ma per tempi di risposta decenti è consigliabile avere una GPU compatibile:
- macOS: Supporto nativo per GPU Apple Silicon (M1, M2, M3)
 - Linux: Compatibilità con GPU NVIDIA via CUDA (VRAM ≥ 6 GB consigliata)
 - Windows: Richiede WSL + supporto GPU CUDA
 
Spazio su disco
Ogni modello occupa dello spazio su disco. Ad esempio:
- Mistral 7B: circa 4.5 GB
 - LLaMA 2 13B: oltre 8 GB
 - Gemma 7B: circa 5 GB
 
Inoltre, se utilizzi più versioni o modelli fine-tuned, è bene considerare una SSD da almeno 100 GB liberi per lavorare senza problemi.
CPU
Se non disponi di una GPU, la CPU sarà interamente responsabile dell’inferenza. Sono consigliati:
- Intel i5/i7 o AMD Ryzen 5/7 (ultime generazioni)
 - Apple Silicon (M1 o superiore)
 - Possibilità di sfruttare istruzioni AVX/AVX2 per prestazioni ottimali
 
Esempi di configurazione
| Configurazione | Tipo macchina | Modelli supportati | Note | 
|---|---|---|---|
| Base | Laptop i5 / 8 GB RAM | Phi, TinyLLaMA | Esecuzione lenta, modelli base | 
| Media | MacBook M1 / 16 GB | Mistral 7B, Gemma 7B | Esperienza fluida e reattiva | 
| Avanzata | PC con RTX 3060 / 32 GB RAM | LLaMA 13B, OpenHermes | Ottimo per fine-tuning e API locali | 
| Server | Workstation con 64 GB RAM e GPU A100 | LLaMA 65B, modelli GPT-style | Solo per esperimenti intensivi o utilizzi commerciali | 
Un ottimo alleato per il tuo vecchio laptop
Una delle sorprese più piacevoli è che Ollama, in combinazione con modelli ottimizzati come Phi 2 o TinyLLaMA, può funzionare anche su laptop datati (es. un HP EliteBook con 8 GB di RAM e CPU i5). Certo, i tempi di risposta non saranno istantanei, ma per prototipi o esperimenti locali è più che sufficiente.
Checklist pre-installazione Ollama
Prima di procedere con l’installazione, verifica questi punti per evitare problemi o esperienze sotto le aspettative:
Requisiti minimi consigliati:
Sistema operativo compatibile:
- macOS 12+ (Apple Silicon o Intel)
 - Linux (Ubuntu, Arch, Debian, etc.)
 - Windows 11 con WSL2 + Ubuntu
 
RAM ≥ 8 GB (16 GB consigliati per Mistral o Gemma)
CPU con supporto AVX/AVX2 (Intel i5/i7, AMD Ryzen, Apple Silicon)
Opzionale ma raccomandata) GPU compatibile:
- NVIDIA con CUDA (su Linux/WSL)
 - Apple M1/M2/M3 (macOS)
 
SSD con ≥ 20 GB liberi (più spazio se usi più modelli)
Terminale e shell compatibili (bash, zsh, fish)
Connessione internet per il download iniziale dei modelli
Benchmark lato pratico: CPU vs GPU
Questi benchmark sono indicativi e variano in base alla configurazione, ma danno un’idea chiara dei vantaggi della GPU locale. L’inferenza è misurata in token/sec (più è alto, meglio è).
| Modello | Hardware | Modalità | Token/sec | Note | 
|---|---|---|---|---|
| Mistral 7B | Intel i5 10th gen / 16 GB RAM | CPU | ~6–8 | Lento ma usabile | 
| Mistral 7B | Apple M1 16 GB (macOS) | GPU | ~25–30 | Buona reattività, ottimo per dev | 
| Mistral 7B | NVIDIA RTX 3060 / 32 GB RAM | GPU | ~50–60 | Molto veloce | 
| Phi 2 | Intel i5 / 8 GB RAM | CPU | ~15–18 | Ottimo per hardware leggero | 
| LLaMA 13B | AMD Ryzen 9 + RTX 3090 / 64 GB | GPU | ~40–50 | Reattivo anche su modelli più grandi | 
| LLaMA 2 70B | NVIDIA A100 80 GB (server) | GPU | ~80–100 | Esecuzione possibile solo su server | 
⚠️ Nota: L’esecuzione in CPU-only è funzionale per test e sviluppo, ma non è raccomandata per produzioni real-time o modelli sopra i 7B parametri.
Nei prossimi articoli vedremo come ottimizzare Ollama su hardware limitato, comprimere i modelli con quantizzazione (es. 4-bit), e configurare ambienti Linux leggeri per inferenza veloce.