I benchmark tradizionali come MMLU e HumanEval si concentrano su capacità specifiche e ristrette. Al contrario, @yupp_ai (X) riflette le preferenze degli utenti del mondo reale in diversi scenari - che vanno dalla pianificazione di qualsiasi cosa e supporto alla programmazione alla scrittura creativa - offrendo un segnale molto più ricco rispetto alle valutazioni sintetiche.

Integrando uno strato di incentivi basato su criptovalute, Yupp consente la generazione continua di dati su larga scala, superando efficacemente la sfida del cold-start che ha a lungo ostacolato la valutazione dei modelli recentemente rilasciati.

#YuppAI #AI #Web3