Skip to content

02 Alignment & Safety

对齐与安全:RLHF、DPO、RLAIF、Constitutional AI、Red-teaming、Jailbreak 防御、价值观对齐等。


LLM RL 训练

论文关键词时间
R³LGRPO 改进、语言引导探索、Pivotal Credit、Positive Amplification2026.01