Dmitrii Kharlapenko

Evolutionary prompt optimization for SAE feature visualization

by neverix, Daniel Tan, Dmitrii Kharlapenko, Neel Nanda, and Arthur Conmy

TLDR: * Fluent dreaming for language models is an algorithm based on the GCG method that can reliably find plain-text readable prompts for LLMs that maximize certain logits or residual stream directions by using gradients and genetic algorithms. Authors showed its use for visualizing MLP neurons. We show this method...

Nov 14, 202428

Dmitrii Kharlapenko

Dmitrii Kharlapenko

Dmitrii Kharlapenko

Self-explaining SAE features

Extracting SAE task features for in-context learning

SAE features for refusal and sycophancy steering vectors

Evolutionary prompt optimization for SAE feature visualization

Dmitrii Kharlapenko

Self-explaining SAE features

Extracting SAE task features for in-context learning

SAE features for refusal and sycophancy steering vectors

Evolutionary prompt optimization for SAE feature visualization

Evolutionary prompt optimization for SAE feature visualization

SAE features for refusal and sycophancy steering vectors

Extracting SAE task features for in-context learning

Self-explaining SAE features