Nevan Wichers

Inoculation prompting: Instructing models to misbehave at train-time can improve run-time behavior

by Sam Marks, Nevan Wichers, Daniel Tan, Aram Ebtekar, Jozdien, David Africa, Alex Mallen, and Fabien Roger

This is a link post for two papers that came out today: * Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time (Tan et al.) * Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment (Wichers et al.) These papers both study the following...

Oct 8, 2025176

Nevan Wichers

Nevan Wichers

Inoculation prompting: Instructing models to misbehave at train-time can improve run-time behavior

Model Spec Midtraining: Improving How Alignment Training Generalizes

A Variance Indifferent Maximizer Alternative

Visualizing neural network planning

Nevan Wichers

Inoculation prompting: Instructing models to misbehave at train-time can improve run-time behavior

Model Spec Midtraining: Improving How Alignment Training Generalizes

A Variance Indifferent Maximizer Alternative

Visualizing neural network planning

Model Spec Midtraining: Improving How Alignment Training Generalizes

Inoculation prompting: Instructing models to misbehave at train-time can improve run-time behavior

Visualizing neural network planning

A Variance Indifferent Maximizer Alternative