Skip to content

📚 论文索引

LLM Paper Notes 是一个开源的论文精读笔记站,聚焦大语言模型及相关领域。每篇笔记包含问题动机、前置知识、方法拆解、公式推导、实验分析和个人思考。


分类导航

分类覆盖方向
🏗️Foundation ModelsGPT、LLaMA、Mamba、Scaling Laws、MoE 预训练
🛡️Alignment & SafetyRLHF、DPO、RLAIF、Constitutional AI
💡ReasoningCoT、ToT、o1/o3、数学推理、Test-time Compute
🖼️MultimodalGPT-4V、LLaVA、视频理解、语音模型
🤖AgentsReAct、Toolformer、WebAgent、SWE-Agent
🦾Embodied AIVLA、世界模型、机器人 RL、模仿学习
EfficiencyGPTQ、AWQ、LoRA、Speculative Decoding
🔍RAG & KnowledgeDense Retrieval、RAPTOR、GraphRAG
📊EvaluationMMLU、HumanEval、Arena、LLM-as-Judge

全部论文

🦾 Embodied AI — VLA 基础模型

论文一句话概括关键词时间
π₀用 Flow Matching 替代自回归生成动作,构建首个能完成高频灵巧操作的通用 VLA 基础模型Flow Matching VLA、Action Expert、跨构型预训练2024.10
π₀.₅通过异构多源数据协同训练和分层推理,首次实现端到端 VLA 在全新家庭环境中执行长时域灵巧操作异构协同训练、分层推理、开放世界泛化2025.04

🦾 Embodied AI — VLA / RL 后训练

论文一句话概括关键词时间
RISE用组合式世界模型在想象空间做 RL,让 VLA 不靠真实交互就能自我改进世界模型、Imagination RL、VLA 自改进2026.02
SAC Flow把 Flow Policy 重新理解为序列模型,用 GRU/Transformer 重参数化解决 RL 梯度不稳定问题Flow Policy、序列建模、SAC、off-policy RL2026.01