Il fenomenale successo di #OPENCLAW indica che la classe Agent ha raggiunto un punto di svolta; il consumo di token non diminuirà, ma solo aumenterà.
Il fattore più importante quest'anno è dimostrare se l'IA sia una bolla e se le valutazioni delle azioni statunitensi siano troppo elevate.
Ho raccolto alcuni dati e report.
Basandosi esclusivamente sull'API OpenAI, nel 2025 sono stati elaborati circa 1,8-2,2 quadrilioni di token.
Volume stimato per i primi due mesi del 2026 (API OpenAI): circa 520 trilioni di token.
Si tratta di circa un quarto del volume totale del 2025 in soli due mesi.
Questi dati includono solo OpenAI e non tengono conto dell'intero settore. I modelli nazionali consumano ancora più token, ma offrono il miglior rapporto costi-efficacia.
L'attuale tasso di consumo indica che è molto probabile che il consumo totale di token nel 2026 superi il consumo totale di tutti gli anni precedenti della civiltà umana.
La domanda nel 2026 è di gran lunga superiore a quella del 2025; e nel 2027? Alcuni fornitori hanno già aumentato i prezzi e implementato limitazioni di velocità per le API, e stanno riscontrando una persistente carenza di GPU, potenza e token.
Secondo i report finanziari del settore dalla fine del 2025 all'inizio del 2026 (come i dati interni trapelati da OpenAI e la dichiarazione di finanziamento di Serie G di Anthropic):
Margine di calcolo: Circa il 60% - 75%
Definizione: Deducendo solo i costi di potenza di calcolo necessari per l'inferenza (GPU, elettricità, manutenzione del data center).
Stato attuale: Prendendo ad esempio OpenAI, il suo margine di calcolo ha raggiunto il 70% nell'ottobre 2025 (rispetto a solo il 35% all'inizio del 2024). Ciò significa che per ogni 100 yuan pagati da un utente, il costo della potenza di calcolo pura è di circa 30 yuan.
Margine lordo: circa il 30% - 50%
Definizione: basato sul margine di calcolo, deducendo ulteriori spese come la formazione del modello (ammortamento della potenza di calcolo), gli stipendi del personale tecnico e la moderazione dei contenuti.
Stato attuale: si tratta di un parametro relativamente difficile da raggiungere. Il margine lordo di OpenAI per il 2025 era di circa il 33%, poiché i significativi investimenti in ricerca e sviluppo e la competizione per i talenti hanno diluito il profitto per token.
Cambiamento chiave: con l'adozione diffusa di NVIDIA B200 (Blackwell) nel 2026, la produttività di inferenza per token è aumentata di quasi cinque volte, determinando direttamente un balzo del margine lordo di calcolo dal "pareggio" dell'anno scorso all'attuale "margine elevato".