Jono

Is anyone developing optimisation-robust interpretability methods?

With optimisation-robust I mean that it withstands point 27 from AGI Ruin: > When you explicitly optimize against a detector of unaligned thoughts, you're partially optimizing for more aligned thoughts, and partially optimizing for unaligned thoughts that are harder to detect. Optimizing against an interpreted thought optimizes against interpretability. Are...

Jun 11, 20246

Jono

Jono

AI demands unprecedented reliability

Closed-Source Evaluations

Is anyone developing optimisation-robust interpretability methods?

Jono's Shortform

Jono

Jono's Shortform

Is anyone developing optimisation-robust interpretability methods?

Closed-Source Evaluations

AI demands unprecedented reliability

AI demands unprecedented reliability

Closed-Source Evaluations

Is anyone developing optimisation-robust interpretability methods?

Jono's Shortform