Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Safe MarketUniverses : banc d'évaluation d'allocation de supervision

Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.

120 épisodes; perte par confiance 0.176 contre hasard 0.191

Banc d'évaluation public reproductible

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Rôle: Auteur du banc d'évaluation : conception d'épisodes, métrique de perte, analyse et paquet public de preuve.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
AxeÉchantillonCorrecteurRésultatLimite
Résultat principalBanc d'évaluation public reproductibleComparaison avec l'affirmation publique et ses artefacts de preuve120 épisodes; perte par confiance 0.176 contre hasard 0.191Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.
Signal de preuve120 épisodes avec preuve versionnée et régénérableLecture de dépôts, rapports, données versionnées ou démos publiquesLa confiance émise par le modèle alloue la revue rare près du hasardLe banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Comment inspecter ce travail

Question évaluée

Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.

Preuve inspectable

Preuve principale : 120 épisodes; perte par confiance 0.176 contre hasard 0.191. Surface : Banc d'évaluation public reproductible.

Limite de l'affirmation

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Étude de cas

Problème

Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.

Contexte

Safe MarketUniverses teste comment allouer un budget fixe de revue humaine entre décisions séquentielles d'agents. Chaque règle est notée par perte face à un oracle rétrospectif qui utilise le même budget de façon optimale.

Méthode

Rôle de Pablo : Auteur du banc d'évaluation : conception d'épisodes, métrique de perte, analyse et paquet public de preuve. Perte d'allocation de supervision face à un oracle rétrospectif, Préenregistrement, Banc d'essai d'évaluation d'agents

Résultat

120 épisodes; perte par confiance 0.176 contre hasard 0.191 120 épisodes avec preuve versionnée et régénérable

Limite

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Preuve

Banc d'évaluation public reproductible La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

  • 120 épisodes avec preuve versionnée et régénérable
  • La confiance émise par le modèle alloue la revue rare près du hasard
  • Une règle d'intégrité de preuve fait mieux sous la notation préenregistrée, avec réserves de fragilité
  • Résultat nul préenregistré reporté directement

Méthodes

  • Perte d'allocation de supervision face à un oracle rétrospectif
  • Préenregistrement
  • Banc d'essai d'évaluation d'agents
  • Preuve versionnée et régénérable