CAIBA już ustala standard 📊

Od uruchomienia na początku tego miesiąca:

• Rozszerzenie CAIA Benchmark v0.2: 40 → 60 zadań

• Wyniki pokazują, że narzędzia są skuteczniejsze niż podpowiadanie

• Tokenomia sprawia problemy większości modeli

Wkrótce:

• Rozszerzenie z 60 do 80 zadań w CAIA v0.3

• Dodanie większej liczby agentów kryptograficznych (nie tylko LLM)

Wszystkie wyniki znajdują się w pełnym blogu podlinkowanym poniżej