📚 论文索引

LLM Paper Notes 是一个开源的论文精读笔记站，聚焦大语言模型及相关领域。每篇笔记包含问题动机、前置知识、方法拆解、公式推导、实验分析和个人思考。

分类导航

	分类	覆盖方向
🏗️	Foundation Models	GPT、LLaMA、Mamba、Scaling Laws、MoE 预训练
🛡️	Alignment & Safety	RLHF、DPO、RLAIF、Constitutional AI
💡	Reasoning	CoT、ToT、o1/o3、数学推理、Test-time Compute
🖼️	Multimodal	GPT-4V、LLaVA、视频理解、语音模型
🤖	Agents	ReAct、Toolformer、WebAgent、SWE-Agent
🦾	Embodied AI	VLA、世界模型、机器人 RL、模仿学习
⚡	Efficiency	GPTQ、AWQ、LoRA、Speculative Decoding
🔍	RAG & Knowledge	Dense Retrieval、RAPTOR、GraphRAG
📊	Evaluation	MMLU、HumanEval、Arena、LLM-as-Judge

全部论文

🦾 Embodied AI — VLA 基础模型

论文	一句话概括	关键词	时间
π₀	用 Flow Matching 替代自回归生成动作，构建首个能完成高频灵巧操作的通用 VLA 基础模型	Flow Matching VLA、Action Expert、跨构型预训练	2024.10
π₀.₅	通过异构多源数据协同训练和分层推理，首次实现端到端 VLA 在全新家庭环境中执行长时域灵巧操作	异构协同训练、分层推理、开放世界泛化	2025.04

🦾 Embodied AI — VLA / RL 后训练

论文	一句话概括	关键词	时间
RISE	用组合式世界模型在想象空间做 RL，让 VLA 不靠真实交互就能自我改进	世界模型、Imagination RL、VLA 自改进	2026.02
SAC Flow	把 Flow Policy 重新理解为序列模型，用 GRU/Transformer 重参数化解决 RL 梯度不稳定问题	Flow Policy、序列建模、SAC、off-policy RL	2026.01