Vi spiego come l’AI legge le nostre parole
ChatGPT, Claude, Gemini, tutti i modelli di Intelligenza Artificiale che usate ogni giorno non leggono parole. Leggono token. Un token è un frammento di testo, un pezzo di parola o una parola intera che il modello usa come unità minima di lettura e scrittura. Ogni volta che scrivete qualcosa, il modello non vede le vostre parole. Vede una sequenza di pezzi numerati. E non tutte le lingue valgono uguale.
“Artificial intelligence” sono 3 token. “Intelligenza artificiale” sono 7. “Cybersecurity” è 1 token. “Sicurezza informatica” sono 4. Stesse cose, quasi il doppio dei pezzi. Il vocabolario dei token è stato costruito su testi prevalentemente in inglese. Le parole italiane vengono spezzate in frammenti perché il sistema non le riconosce come unità.
Costa di più. Voi magari usate un abbonamento fisso e non ve ne accorgete. Ma sulle API il conto arriva subito. Io uso OpenClaw, che lavora con le API in modo automatico, e solo per analizzare i social spendo centinaia di dollari al mese. Le company li stanno svendendo per attrarre utenti. Ed è per questo che su Claude, ChatGPT, Gemini, a un certo punto il sistema vi dice di aspettare. Avete finito i token del periodo. Prima o poi la festa finisce.
La memoria si riempie prima. Ogni modello tiene a mente solo un certo numero di token alla volta. Un documento in italiano occupa più spazio di uno in inglese. Il modello perde il filo prima. Il modello ragiona peggio: ogni token è un passo di elaborazione, più token servono per dire una cosa, più passaggi servono per elaborarla. Quando qualcuno vi dice che questi modelli trattano tutte le lingue allo stesso modo, non è proprio vero, è legato alla lingua che si utilizza.
Il web è prevalentemente in inglese. I libri digitalizzati sono prevalentemente in inglese. Il codice sorgente è in inglese. Il modello ha imparato il mondo attraverso quella lente, e il suo vocabolario riflette quella realtà. Noi usiamo questi strumenti ogni giorno senza sapere che stiamo interrogando un sistema che conosce la nostra lingua come una seconda lingua appresa male, fluente in superficie, meno preciso nel profondo.
Fatemi sapere come lo usate voi e cosa ne pensate.
#DecisioniArtificiali #MCC
📕 È uscito il libro Decisioni Artificiali! Se lo preordinate subito vi arriva nel primo giro di spedizioni.
https://www.amazon.it/Decisioni-artificiali-responsabilità-allintelligenza-artificiale/dp/B0GVQ311PL/














