Helena Casademunt

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Summary * We introduce an interpretability-based technique for controlling how fine-tuned LLMs generalize out-of-distribution, without modifying training data. * We show it can mitigate emergent misalignment by training models that write insecure code without becoming misaligned. * It can also reduce sensitivity to spurious cues, even when they are present...

Jul 23, 202579

LESSWRONG
LW

LESSWRONG
LW

Helena Casademunt

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Helena Casademunt

Helena Casademunt

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Summary

Introduction