rohuang

Tracking Difficulty with Feature Portfolios

Thanks to Megan Kinniment for helpful comments and discussion, and to Jean-Stanislas Denain for helpful comments and pointers to past work. TL;DR: We claim that useful task attributes for forecasting AI capabilities should be measurable, interpretable, stable in its trend over time, and sufficient to explain task difficulty. task.human_completion_time (human...

May 1922

rohuang

rohuang

Benchmarking Real Work

Tracking Difficulty with Feature Portfolios

More is different for intelligence

The bitter lesson for software

rohuang

Benchmarking Real Work

Tracking Difficulty with Feature Portfolios

More is different for intelligence

The bitter lesson for software

Inverse Rubric Optimization: A testbed for agent science

Tracking Difficulty with Feature Portfolios

Benchmarking Real Work

The bitter lesson for software

More is different for intelligence