Skip to content

02 Alignment & Safety

对齐与安全:RLHF、DPO、RLAIF、Constitutional AI、Red-teaming、Jailbreak 防御、价值观对齐等。