CAIBA już ustala standard 📊
Od uruchomienia na początku tego miesiąca:
• Rozszerzenie CAIA Benchmark v0.2: 40 → 60 zadań
• Wyniki pokazują, że narzędzia są skuteczniejsze niż podpowiadanie
• Tokenomia sprawia problemy większości modeli
Wkrótce:
• Rozszerzenie z 60 do 80 zadań w CAIA v0.3
• Dodanie większej liczby agentów kryptograficznych (nie tylko LLM)
Wszystkie wyniki znajdują się w pełnym blogu podlinkowanym poniżej
