AXRP - the AI X-risk Research Podcast

Transcripts of AXRP episodes.

AXRP - the AI X-risk Research Podcast

Transcripts of AXRP episodes.

12AXRP Episode 1 - Adversarial Policies with Adam Gleave

DanielFilan

13AXRP Episode 2 - Learning Human Biases with Rohin Shah

DanielFilan

27AXRP Episode 3 - Negotiable Reinforcement Learning with Andrew Critch

DanielFilan

43AXRP Episode 4 - Risks from Learned Optimization with Evan Hubinger

DanielFilan

35AXRP Episode 5 - Infra-Bayesianism with Vanessa Kosoy

DanielFilan

26AXRP Episode 6 - Debate and Imitative Generalization with Beth Barnes

DanielFilan

34AXRP Episode 7 - Side Effects with Victoria Krakovna

DanielFilan

22AXRP Episode 8 - Assistance Games with Dylan Hadfield-Menell

DanielFilan

59AXRP Episode 9 - Finite Factored Sets with Scott Garrabrant

DanielFilan

34AXRP Episode 10 - AI’s Future and Impacts with Katja Grace

DanielFilan

19AXRP Episode 11 - Attainable Utility and Power with Alex Turner

DanielFilan

38AXRP Episode 12 - AI Existential Risk with Paul Christiano

DanielFilan

28AXRP Episode 13 - First Principles of AGI Safety with Richard Ngo

DanielFilan

25AXRP Episode 14 - Infra-Bayesian Physicalism with Vanessa Kosoy

DanielFilan

34AXRP Episode 15 - Natural Abstractions with John Wentworth

DanielFilan

20AXRP Episode 16 - Preparing for Debate AI with Geoffrey Irving

DanielFilan

16AXRP Episode 17 - Training for Very High Reliability with Daniel Ziegler

DanielFilan

12AXRP Episode 18 - Concept Extrapolation with Stuart Armstrong

DanielFilan

45AXRP Episode 19 - Mechanistic Interpretability with Neel Nanda

DanielFilan

22AXRP Episode 20 - ‘Reform’ AI Alignment with Scott Aaronson

DanielFilan

12AXRP Episode 21 - Interpretability for Engineers with Stephen Casper

DanielFilan

52AXRP Episode 22 - Shard Theory with Quintin Pope

DanielFilan

22AXRP Episode 23 - Mechanistic Anomaly Detection with Mark Xu

DanielFilan

55AXRP Episode 24 - Superalignment with Jan Leike

DanielFilan

43AXRP Episode 25 - Cooperative AI with Caspar Oesterheld

DanielFilan

14AXRP Episode 26 - AI Governance with Elizabeth Seger

DanielFilan

69AXRP Episode 27 - AI Control with Buck Shlegeris and Ryan Greenblatt

DanielFilan

12AXRP Episode 28 - Suing Labs for AI Risk with Gabriel Weil

DanielFilan

20AXRP Episode 29 - Science of Deep Learning with Vikrant Varma

DanielFilan

25AXRP Episode 30 - AI Security with Jeffrey Ladish

DanielFilan

72AXRP Episode 31 - Singular Learning Theory with Daniel Murfet

DanielFilan

20AXRP Episode 32 - Understanding Agency with Jan Kulveit

DanielFilan

34AXRP Episode 33 - RLHF Problems with Scott Emmons

DanielFilan

23AXRP Episode 34 - AI Evaluations with Beth Barnes

DanielFilan

21AXRP Episode 35 - Peter Hase on LLM Beliefs and Easy-to-Hard Generalization

DanielFilan

26AXRP Episode 36 - Adam Shai and Paul Riechers on Computational Mechanics

DanielFilan

21AXRP Episode 37 - Jaime Sevilla on Forecasting AI

DanielFilan

14AXRP Episode 38.0 - Zhijing Jin on LLMs, Causality, and Multi-Agent Systems

DanielFilan

12AXRP Episode 38.1 - Alan Chan on Agent Infrastructure

DanielFilan

34AXRP Episode 38.2 - Jesse Hoogland on Singular Learning Theory

DanielFilan

41AXRP Episode 39 - Evan Hubinger on Model Organisms of Misalignment

DanielFilan

20AXRP Episode 38.3 - Erik Jenner on Learned Look-Ahead

DanielFilan

11AXRP Episode 38.4 - Shakeel Hashim on AI Journalism

DanielFilan

9AXRP Episode 38.5 - Adrià Garriga-Alonso on Detecting AI Scheming

DanielFilan

10AXRP Episode 38.6 - Joel Lehman on Positive Visions of AI

DanielFilan

10AXRP Episode 38.7 - Anthony Aguirre on the Future of Life Institute

DanielFilan

13AXRP Episode 38.8 - David Duvenaud on Sabotage Evaluations and the Post-AGI Future

DanielFilan

26AXRP Episode 40 - Jason Gross on Compact Proofs and Interpretability

DanielFilan

28AXRP Episode 41 - Lee Sharkey on Attribution-based Parameter Decomposition

DanielFilan

13AXRP Episode 42 - Owain Evans on LLM Psychology

DanielFilan

12AXRP Episode 43 - David Lindner on Myopic Optimization with Non-myopic Approval

DanielFilan

12AXRP Episode 44 - Peter Salib on AI Rights for Human Safety

DanielFilan

11mo

31AXRP Episode 45 - Samuel Albanie on DeepMind’s AGI Safety Approach

DanielFilan

10mo

11AXRP Episode 46 - Tom Davidson on AI-enabled Coups

DanielFilan

9mo

21AXRP Episode 47 - David Rein on METR Time Horizons

DanielFilan

5mo

22AXRP Episode 48 - Guive Assadi on AI Property Rights

DanielFilan

3mo