Di cosa hai bisogno per far girare un LLM in locale?

Abbiamo visto nel precedente articolo (Ollama: portare l’Intelligenza Artificiale sul tuo laptop) quanto sia facile implementare un modello AI sulla nostra macchina locale.
Uno degli aspetti più sorprendenti di Ollama è la sua efficienza: non serve un datacenter per far girare un modello linguistico generativo. Ma è anche vero che le prestazioni variano molto in base alla configurazione hardware. Ecco i principali elementi da considerare:

RAM

La RAM è fondamentale: i modelli in esecuzione con Ollama risiedono in memoria. Ecco una stima approssimativa per i modelli principali:

Modello	Parametri	RAM minima consigliata
Tiny (Phi, TinyLLaMA)	~1B	4 GB
Mistral	7B	8–12 GB
LLaMA 2	13B	16–24 GB
LLaMA 2	70B	48 GB+ (non consigliato in locale)

Nota: su macOS con chip M1/M2, la gestione unificata della memoria consente di ottenere prestazioni migliori a parità di RAM nominale.

GPU (opzionale ma consigliata)

Ollama può funzionare anche in modalità CPU-only, ma per tempi di risposta decenti è consigliabile avere una GPU compatibile:

macOS: Supporto nativo per GPU Apple Silicon (M1, M2, M3)
Linux: Compatibilità con GPU NVIDIA via CUDA (VRAM ≥ 6 GB consigliata)
Windows: Richiede WSL + supporto GPU CUDA

Spazio su disco

Ogni modello occupa dello spazio su disco. Ad esempio:

Mistral 7B: circa 4.5 GB
LLaMA 2 13B: oltre 8 GB
Gemma 7B: circa 5 GB

Inoltre, se utilizzi più versioni o modelli fine-tuned, è bene considerare una SSD da almeno 100 GB liberi per lavorare senza problemi.

CPU

Se non disponi di una GPU, la CPU sarà interamente responsabile dell’inferenza. Sono consigliati:

Intel i5/i7 o AMD Ryzen 5/7 (ultime generazioni)
Apple Silicon (M1 o superiore)
Possibilità di sfruttare istruzioni AVX/AVX2 per prestazioni ottimali

Esempi di configurazione

Configurazione	Tipo macchina	Modelli supportati	Note
Base	Laptop i5 / 8 GB RAM	Phi, TinyLLaMA	Esecuzione lenta, modelli base
Media	MacBook M1 / 16 GB	Mistral 7B, Gemma 7B	Esperienza fluida e reattiva
Avanzata	PC con RTX 3060 / 32 GB RAM	LLaMA 13B, OpenHermes	Ottimo per fine-tuning e API locali
Server	Workstation con 64 GB RAM e GPU A100	LLaMA 65B, modelli GPT-style	Solo per esperimenti intensivi o utilizzi commerciali

Un ottimo alleato per il tuo vecchio laptop

Una delle sorprese più piacevoli è che Ollama, in combinazione con modelli ottimizzati come Phi 2 o TinyLLaMA, può funzionare anche su laptop datati (es. un HP EliteBook con 8 GB di RAM e CPU i5). Certo, i tempi di risposta non saranno istantanei, ma per prototipi o esperimenti locali è più che sufficiente.

Checklist pre-installazione Ollama

Prima di procedere con l’installazione, verifica questi punti per evitare problemi o esperienze sotto le aspettative:

Requisiti minimi consigliati:

Sistema operativo compatibile:

macOS 12+ (Apple Silicon o Intel)
Linux (Ubuntu, Arch, Debian, etc.)
Windows 11 con WSL2 + Ubuntu

RAM ≥ 8 GB (16 GB consigliati per Mistral o Gemma)

CPU con supporto AVX/AVX2 (Intel i5/i7, AMD Ryzen, Apple Silicon)

Opzionale ma raccomandata) GPU compatibile:

NVIDIA con CUDA (su Linux/WSL)
Apple M1/M2/M3 (macOS)

SSD con ≥ 20 GB liberi (più spazio se usi più modelli)

Terminale e shell compatibili (bash, zsh, fish)

Connessione internet per il download iniziale dei modelli

Benchmark lato pratico: CPU vs GPU

Questi benchmark sono indicativi e variano in base alla configurazione, ma danno un’idea chiara dei vantaggi della GPU locale. L’inferenza è misurata in token/sec (più è alto, meglio è).

Modello	Hardware	Modalità	Token/sec	Note
Mistral 7B	Intel i5 10th gen / 16 GB RAM	CPU	~6–8	Lento ma usabile
Mistral 7B	Apple M1 16 GB (macOS)	GPU	~25–30	Buona reattività, ottimo per dev
Mistral 7B	NVIDIA RTX 3060 / 32 GB RAM	GPU	~50–60	Molto veloce
Phi 2	Intel i5 / 8 GB RAM	CPU	~15–18	Ottimo per hardware leggero
LLaMA 13B	AMD Ryzen 9 + RTX 3090 / 64 GB	GPU	~40–50	Reattivo anche su modelli più grandi
LLaMA 2 70B	NVIDIA A100 80 GB (server)	GPU	~80–100	Esecuzione possibile solo su server

⚠️ Nota: L’esecuzione in CPU-only è funzionale per test e sviluppo, ma non è raccomandata per produzioni real-time o modelli sopra i 7B parametri.

Nei prossimi articoli vedremo come ottimizzare Ollama su hardware limitato, comprimere i modelli con quantizzazione (es. 4-bit), e configurare ambienti Linux leggeri per inferenza veloce.

Di cosa hai bisogno per far girare un LLM in locale?

RAM

GPU (opzionale ma consigliata)

Spazio su disco

CPU

Esempi di configurazione

Un ottimo alleato per il tuo vecchio laptop

Checklist pre-installazione Ollama

Requisiti minimi consigliati:

Benchmark lato pratico: CPU vs GPU

Correlati

RispondiAnnulla risposta

RAM

GPU (opzionale ma consigliata)

Spazio su disco

CPU

Esempi di configurazione

Un ottimo alleato per il tuo vecchio laptop

Checklist pre-installazione Ollama

Requisiti minimi consigliati:

Benchmark lato pratico: CPU vs GPU

Condividi

Correlati

RispondiAnnulla risposta