bira

Spooky Collusion at a Distance with Superrational AI

TLDR: We found that models can coordinate without communication by reasoning that their reasoning is similar across all instances, a behavior known as superrationality. Superrationality is observed in recent powerful models and outperforms classic rationality in strategic games. Current superrational models cooperate more often with AI than with humans, even...

Oct 8, 202579

bira

bira

Spooky Collusion at a Distance with Superrational AI

Adding Typos Made Haiku's Accuracy Go Up

[CS 2881r AI Safety] [Week 1] Introduction

[GDPval] Models Could Automate the U.S. Economy by 2027

bira

Spooky Collusion at a Distance with Superrational AI

Adding Typos Made Haiku's Accuracy Go Up

[CS 2881r AI Safety] [Week 1] Introduction

[GDPval] Models Could Automate the U.S. Economy by 2027

Adding Typos Made Haiku's Accuracy Go Up

Spooky Collusion at a Distance with Superrational AI

[GDPval] Models Could Automate the U.S. Economy by 2027

[CS 2881r AI Safety] [Week 1] Introduction