Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Safe MarketUniverses: banco de avaliação de alocação de supervisão

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

120 episódios; perda por confiança 0.176 contra acaso 0.191

Banco público de avaliação reproduzível

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Papel: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
EixoAmostraAvaliadorResultadoLimite
Resultado principalBanco público de avaliação reproduzívelComparação contra a afirmação pública e seus artefatos de prova120 episódios; perda por confiança 0.176 contra acaso 0.191O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Sinal de evidência120 episódios com evidência versionada e regenerávelLeitura de repositórios, relatórios, dados versionados ou demos públicasA confiança emitida pelo modelo alocou revisão escassa perto do acasoO banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Como inspecionar este trabalho

Pergunta avaliada

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

Evidência inspecionável

Evidência principal: 120 episódios; perda por confiança 0.176 contra acaso 0.191. Superfície: Banco público de avaliação reproduzível.

Limite da afirmação

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Estudo de caso

Problema

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

Contexto

Safe MarketUniverses testa como alocar um orçamento fixo de revisão humana entre decisões sequenciais de agentes. Cada regra é pontuada por perda contra um oráculo retrospectivo que usa o mesmo orçamento de forma ótima.

Método

Papel de Pablo: Autor do banco de avaliação: desenho de episódios, métrica de perda, análise e pacote público de evidência. Perda de alocação de supervisão frente a um oráculo retrospectivo, Preregistro, Banco de prova para avaliação de agentes

Resultado

120 episódios; perda por confiança 0.176 contra acaso 0.191 120 episódios com evidência versionada e regenerável

Limite

O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Evidência

Banco público de avaliação reproduzível A evidência principal aparece nos links da seção de materiais.

Resultados principais

  • 120 episódios com evidência versionada e regenerável
  • A confiança emitida pelo modelo alocou revisão escassa perto do acaso
  • Uma regra de integridade de evidência funcionou melhor sob a pontuação pré-registrada, com ressalvas de fragilidade
  • Resultado nulo pré-registrado reportado diretamente

Métodos

  • Perda de alocação de supervisão frente a um oráculo retrospectivo
  • Preregistro
  • Banco de prova para avaliação de agentes
  • Evidência versionada e regenerável