O laboratório de IA de código aberto Sentient anunciou o lançamento da Arena, um ambiente de teste de qualidade de produção para avaliar o desempenho dos agentes de IA nos fluxos de trabalho em nível empresarial. As divisões de ativos digitais da Pantera Capital e da Franklin Templeton se juntaram à primeira coorte de testes da Arena.

Sentient indicou que a Arena não é um teste estático de modelo, mas testa o agente de IA em uma tarefa padronizada, simulando as condições empresariais com documentos longos, informações incompletas e fontes contraditórias. A plataforma monitora as categorias de falhas, como alucinações, evidências ausentes, erros de citação e vulnerabilidades de raciocínio, para ajudar os desenvolvedores a diagnosticar problemas. A Arena planeja publicar indicadores de desempenho comparativos por meio de rankings públicos e publicar relatórios de teste resumindo os padrões de falhas comuns e as correções.

$STG

STG
STGUSDT
0.1389
-3.54%

$ALLO

ALLO
ALLOUSDT
0.10622
-7.97%

$STBL

STBLBSC
STBLUSDT
0.04047
-10.26%