Pergunta avaliada
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
120 episódios; perda por confiança 0.176 contra acaso 0.191
O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Papel: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência.
| Eixo | Amostra | Avaliador | Resultado | Limite |
|---|---|---|---|---|
| Resultado principal | Banco público de avaliação reproduzível | Comparação contra a afirmação pública e seus artefatos de prova | 120 episódios; perda por confiança 0.176 contra acaso 0.191 | O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada. |
| Sinal de evidência | 120 episódios com evidência versionada e regenerável | Leitura de repositórios, relatórios, dados versionados ou demos públicas | A confiança emitida pelo modelo alocou revisão escassa perto do acaso | O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada. |
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
Evidência principal: 120 episódios; perda por confiança 0.176 contra acaso 0.191. Superfície: Banco público de avaliação reproduzível.
O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
Safe MarketUniverses testa como alocar um orçamento fixo de revisão humana entre decisões sequenciais de agentes. Cada regra é pontuada por perda contra um oráculo retrospectivo que usa o mesmo orçamento de forma ótima.
Papel de Pablo: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência. Perda de alocação de supervisão frente a um oráculo retrospectivo, Preregistro, Banco de prova para avaliação de agentes
120 episódios; perda por confiança 0.176 contra acaso 0.191 120 episódios com evidência versionada e regenerável
O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Banco público de avaliação reproduzível A evidência principal aparece nos links da seção de materiais.