Cos'è Quantization? Spiegato Semplice
Quantization: Tecnica per ridurre la precisione dei parametri di un modello AI al fine di risparmiare memoria e velocità. La spiegazione pop culture dell'intelligenza artificiale.
La Quantitation (Quantizzazione) trasforma i pesi del modello da formati ad alta precisione (SF32/FP16) a formati ultraleggeri (INT4/INT8). Questo riduce drasticamente l'ingombro del modello (es. da 40GB a 10GB).
Sebbene si perda una minima parte di accuratezza, il guadagno in termini di performance e accessibilità è immenso. È la magia tecnica che permette di far girare modelli da miliardi di parametri su computer e tablet di fascia media.