x

LESSWRONG

LW

Dipika Khullar — LessWrong

Dipika Khullar

Dipika Khullar

Message

52

1y

Dipika Khullar

52

1y

We Built a Tool to Protect Your Dataset From Simple Scrapers

by TurnTrout, Edward Turner, Roy Rinberg, and Dipika Khullar

Author: Alex Turner. Contributors: Dipika Khullar, Ed Turner, and Roy Rinberg. Dataset contamination is bad for several reasons. Most obviously, when benchmarks are included in AI training data, those benchmarks no longer measure generalization -- the AI may have been directly taught the answers. Even more concerningly, if your data...

Jul 25, 2025•65