Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Safe MarketUniverses : banc d'évaluation d'allocation de supervision

Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.

120 épisodes; perte par confiance 0.176 contre hasard 0.191

Banc d'évaluation public reproductible

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Rôle: Auteur du banc d'évaluation : conception d'épisodes, métrique de perte, analyse et paquet public de preuve.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
Axe	Échantillon	Correcteur	Résultat	Limite
Résultat principal	Banc d'évaluation public reproductible	Comparaison avec l'affirmation publique et ses artefacts de preuve	120 épisodes; perte par confiance 0.176 contre hasard 0.191	Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.
Signal de preuve	120 épisodes avec preuve versionnée et régénérable	Lecture de dépôts, rapports, données versionnées ou démos publiques	La confiance émise par le modèle alloue la revue rare près du hasard	Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Comment inspecter ce travail

Question évaluée

Preuve inspectable

Preuve principale : 120 épisodes; perte par confiance 0.176 contre hasard 0.191. Surface : Banc d'évaluation public reproductible.

Limite de l'affirmation

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Étude de cas

Problème

Contexte

Safe MarketUniverses teste comment allouer un budget fixe de revue humaine entre décisions séquentielles d'agents. Chaque règle est notée par perte face à un oracle rétrospectif qui utilise le même budget de façon optimale.

Méthode

Rôle de Pablo : Auteur du banc d'évaluation : conception d'épisodes, métrique de perte, analyse et paquet public de preuve. Perte d'allocation de supervision face à un oracle rétrospectif, Préenregistrement, Banc d'essai d'évaluation d'agents

Résultat

120 épisodes; perte par confiance 0.176 contre hasard 0.191 120 épisodes avec preuve versionnée et régénérable

Limite

Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Preuve

Banc d'évaluation public reproductible La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

120 épisodes avec preuve versionnée et régénérable
La confiance émise par le modèle alloue la revue rare près du hasard
Une règle d'intégrité de preuve fait mieux sous la notation préenregistrée, avec réserves de fragilité
Résultat nul préenregistré reporté directement

Méthodes

Perte d'allocation de supervision face à un oracle rétrospectif
Préenregistrement
Banc d'essai d'évaluation d'agents
Preuve versionnée et régénérable