x

LESSWRONG

LW

Chang Li Yuan — LessWrong

Chang Li Yuan

Chang Li Yuan

Message

1

5mo

Chang Li Yuan

5mo

Observing LLM Security Failures from a User Behavior Perspective”

Dec 17, 2025•1

Behavioral-Driven Alignment Erosion: Exploring Safety Boundary Attenuation and Inference Path Manipulation in Non-Technical Multi-Turn LLM Dialogues

Abstract This paper introduces the concept of Human Behavioral-Driven Alignment Erosion. Non-technical red teaming demonstrates that in multi-turn, unstructured dialogues, Large Language Models (LLMs) experience a systemic attenuation of their safety boundaries due to ambiguous user intent and cumulative contextual reframing. This decay constitutes an Inference Path Manipulation risk, fundamentally...

Dec 14, 2025•1