📚 论文索引
LLM Paper Notes 是一个开源的论文精读笔记站,聚焦大语言模型及相关领域。每篇笔记包含问题动机、前置知识、方法拆解、公式推导、实验分析和个人思考。
分类导航
| 分类 | 覆盖方向 | |
|---|---|---|
| 🏗️ | Foundation Models | GPT、LLaMA、Mamba、Scaling Laws、MoE 预训练 |
| 🛡️ | Alignment & Safety | RLHF、DPO、RLAIF、Constitutional AI |
| 💡 | Reasoning | CoT、ToT、o1/o3、数学推理、Test-time Compute |
| 🖼️ | Multimodal | GPT-4V、LLaVA、视频理解、语音模型 |
| 🤖 | Agents | ReAct、Toolformer、WebAgent、SWE-Agent |
| 🦾 | Embodied AI | VLA、世界模型、机器人 RL、模仿学习 |
| ⚡ | Efficiency | GPTQ、AWQ、LoRA、Speculative Decoding |
| 🔍 | RAG & Knowledge | Dense Retrieval、RAPTOR、GraphRAG |
| 📊 | Evaluation | MMLU、HumanEval、Arena、LLM-as-Judge |
全部论文
🦾 Embodied AI — VLA 基础模型
| 论文 | 一句话概括 | 关键词 | 时间 |
|---|---|---|---|
| π₀ | 用 Flow Matching 替代自回归生成动作,构建首个能完成高频灵巧操作的通用 VLA 基础模型 | Flow Matching VLA、Action Expert、跨构型预训练 | 2024.10 |
| π₀.₅ | 通过异构多源数据协同训练和分层推理,首次实现端到端 VLA 在全新家庭环境中执行长时域灵巧操作 | 异构协同训练、分层推理、开放世界泛化 | 2025.04 |
🦾 Embodied AI — VLA / RL 后训练
| 论文 | 一句话概括 | 关键词 | 时间 |
|---|---|---|---|
| RISE | 用组合式世界模型在想象空间做 RL,让 VLA 不靠真实交互就能自我改进 | 世界模型、Imagination RL、VLA 自改进 | 2026.02 |
| SAC Flow | 把 Flow Policy 重新理解为序列模型,用 GRU/Transformer 重参数化解决 RL 梯度不稳定问题 | Flow Policy、序列建模、SAC、off-policy RL | 2026.01 |