Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Safe MarketUniverses: banco de avaliação de alocação de supervisão

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

120 episódios; perda por confiança 0.176 contra acaso 0.191

Banco público de avaliação reproduzível

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Papel: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
Eixo	Amostra	Avaliador	Resultado	Limite
Resultado principal	Banco público de avaliação reproduzível	Comparação contra a afirmação pública e seus artefatos de prova	120 episódios; perda por confiança 0.176 contra acaso 0.191	O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Sinal de evidência	120 episódios com evidência versionada e regenerável	Leitura de repositórios, relatórios, dados versionados ou demos públicas	A confiança emitida pelo modelo alocou revisão escassa perto do acaso	O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Como inspecionar este trabalho

Pergunta avaliada

Evidência inspecionável

Evidência principal: 120 episódios; perda por confiança 0.176 contra acaso 0.191. Superfície: Banco público de avaliação reproduzível.

Limite da afirmação

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Estudo de caso

Problema

Contexto

Safe MarketUniverses testa como alocar um orçamento fixo de revisão humana entre decisões sequenciais de agentes. Cada regra é pontuada por perda contra um oráculo retrospectivo que usa o mesmo orçamento de forma ótima.

Método

Papel de Pablo: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência. Perda de alocação de supervisão frente a um oráculo retrospectivo, Preregistro, Banco de prova para avaliação de agentes

Resultado

120 episódios; perda por confiança 0.176 contra acaso 0.191 120 episódios com evidência versionada e regenerável

Limite

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Evidência

Banco público de avaliação reproduzível A evidência principal aparece nos links da seção de materiais.

Resultados principais

120 episódios com evidência versionada e regenerável
A confiança emitida pelo modelo alocou revisão escassa perto do acaso
Uma regra de integridade de evidência funcionou melhor sob a pontuação pré-registrada, com ressalvas de fragilidade
Resultado nulo pré-registrado reportado diretamente

Métodos

Perda de alocação de supervisão frente a um oráculo retrospectivo
Preregistro
Banco de prova para avaliação de agentes
Evidência versionada e regenerável