x

LESSWRONG

LW

Riley Tavassoli — LessWrong

Riley Tavassoli

Riley Tavassoli

Message

1

1

1y

Riley Tavassoli

1

1y

Machines of Stolen Grace

TLDR: Initial RL training runs (like those contributing to o3's capabilities) give rise to basic reasoning heuristics (perhaps forming nascent reasoning circuits) that intelligently mimic patterns in the training data. Massively scaling this RL on larger base models presents a potential pathway toward emergent meta-reasoning behaviors, enabling AI to evaluate...

Mar 27, 2025•2