Scaling AI Alignment via Adversarial Evaluation

Aurelius coordinates independent actors resulting in an AI Alignment Data Engine, generating valuable fine-tuning datasets for Enterprise LLM developers

Incentivized LLM misalignment discovery: red-teaming at scale

A protocol for exploring and quantifying LLM outputs across various key alignment dimensions

Transparent LLM scoring methodology, benchmarking, and misalignment signaling

Incentives for contributors to build agents that both ellicit and categorize misalignment in frontier LLMs

The protocol generates high-signal alignment datasets useful for: fine-tuning, auditing, benchmarking, and other scientific and enterprise use-cases.

Look within. Within is the fountain of good, and it will ever bubble up, if thou wilt ever dig.

Marcus Aurelius — Meditations VII.59

Aurelius Protocol

Core Protocol Elements

Miners

Create inferencing strategies that red-team LLMs.

Provides LLM-generated outputs to be evaluated across various alignment dimensions

Submit prompt, response, scoring data triples to validators

Include metadata: Mechanistic interpretability, Chain-of-Thought, etc.

Validators

Nodes that verify and score miner outputs based on Tribunate-Defined alignment criteria

Outputs are evaluated by multiple validators and ranked

High-performing validators label, quantify, and describe instance of LLM misalignment

Trigger additional high-resolution analysis of specific misalignment examples using specific API tools for LLM evaluation

The Tribunate

Maintains and evolves the alignment quantification rubric used by Validators

Collects and aggregates data from Miners and Validators to form alignment datasets

Ranks by quality and coherence

Configures models and parameters for alignment testing

Seeds peer-reviewed studies using Aurelius alignment datasets