Tolga H. Dur

Subliminal Learning Across Models

Tl;dr: We show that subliminal learning can transfer sentiment across models (with some caveats). For example, we transfer positive sentiment for Catholicism, the UK, New York City, Stalin or Ronald Reagan across model families using normal-looking text. This post discusses under what conditions this subliminal transfer happens. — The original...

Nov 26, 202553

LESSWRONG
LW

LESSWRONG
LW

Tolga H. Dur

Subliminal Learning Across Models

Tolga H. Dur

Tolga H. Dur

Subliminal Learning Across Models