【总结】山顶夕景2025年博客年度总结-洪萨配资

文章目录

一、2025年年度总结

一、2025年年度总结

很难相信一年就这么过去了，很快又过得很充实，从年初deepseek火了一波后大家都进行复现，很多人利用GRPO训练think推理模型复现ds，再到后来年中各种RL算法遍地开花，比如DAPO、GSPO等；同时多模态大模型也发展很快，去年效果一般的视频生成模型在今年效果已经非常惊艳了，同时也有像阿里全模态qwen-omni这样的“全能”（还是偏多模态理解）的模型出现，给我们看到未来的无限可能。

因为博客之星活动强行逼自己总结一下今年的创作和学习历程，大体可以分为以下几个模块：agent、RL强化学习、多模态大模型、大模型加速推理、推理大模型。有的是工作中需要跟进的方向，有的是自己喜欢的方向，下面对今年产出的博客进行归档分类，简单总结：

一、agent：deepresearch，深度研究智能体，各大LLM，agentic RL，agent范式及其实践

agent评测综述：【Agent】Evaluation and Benchmarking of LLM Agents: A Survey
智能体agent入门笔记：【Agent】智能体：在循环中自主调用工具的LLM
agent实践：【Agent】自动化深度研究智能体搭建
agent协作模式：【LLM-Agent】七种agent协作模式
deepresearch优化：【Agent】通义DeepResearch之通过CPT Scaling Agents
多模态agent框架：【MLLM】具有长期记忆的多模态智能体框架M3-Agent
多模态agent模型：【MLLM】语音端到端大模型和Voice Agent发展
MCP的应用：【Agent】MCP协议使用 | 用高德MCP Server制作旅游攻略

二、RL：dpo，dpo变体，grpo，dapo，gspo，RL综述

deepseek论文笔记：【LLM】Deepseek R1模型之多阶段训练
解析ds训练流程：【LLM】DeepSeek R1训练成本降低分析篇
RL的配方&小模型进行RL：【RL】Scaling RL Compute for LLMs | JustRL 1.5b
信息熵理解RL：【LLM-RL】以信息熵的角度理解RL
经典RL算法对比：【LLM-RL】GRPO-＞DAPO-＞GSPO训练区别
RLVR的可行性：【RL】Does RLVR enable LLMs to self-improve？
监督强化学习（SRL）框架：【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
利用ms-swift框架训练GRPO：【LLM】基于ms-Swift大模型SFT和RL的训练实践
RLVR中奖励函数设计：【RLVR】GRPO中奖励函数的设计逻辑
大模型学习材料：【LLM】SmolLM3模型训练手册
DPO变体算法：【RL】KTO: Model Alignment as Prospect Theoretic Optimization

三、多模态：qwen omni，端到端语音大模型，ovis2.5图生文模型，视频生成

年中总结：【MLLM】2025年多模态技术发展（Better、Faster、Stronger）
全模态大模型汇总：【MLLM】全模态Omni（nvidia/美团/蚂蚁）
qwen omni解析：【MLLM】Qwen-Omni系列全模态模型架构和训练
视频生成：【LLM-video】HunyuanVideo-1.5视频生成模型
图生文理解模型：【MLLM】多模态理解Ovis2.5模型和训练流程（更新中）
理解和生成统一：【MLLM】字节BAGEL多模态理解和生成统一模型
GLM系列：【MLLM】多模态理解GLM-4.1V-Thinking模型

四、推理加速：投机解码，推理优化综述，sglang框架应用，量化

投机解码：【LLM】大模型投机采样Speculative Sampling推理加速
量化：【LLM】大模型量化方法（权重&激活值量化）| 压测
推理框架：【LLM推理】Sglang推理框架使用入门
框架总结：【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架

五、推理大模型/模型结构创新：deepseek，kimi等

ds考古模型：【LLM】DeepSeekMath-V2模型
kimi 1.5：【LLM】kimi 1.5模型架构和训练流程
kimi-k2模型：【LLM】Kimi-K2模型架构（MuonClip 优化器等）
MOE解析：【LLM】MOE混合专家大模型综述（重要模块&原理）
GLM4.5模型：【LLM】GLM-4.5模型架构和原理
混合注意力机制、高稀疏度 MoE结构：【LLM】具有训练推理性价比的Qwen3-Next模型

期待大家对个人学习笔记提出建议和分享自己的算法见解，非常感激，2026年会更好！

Vue生态拓展与实战案例03，ECharts 在 Vue 项目中的应用：从集成到可视化实战

数据可视化是前端开发中不可或缺的一环，而 ECharts 作为百度开源的可视化图表库，凭借其丰富的图表类型、灵活的配置项和优秀的交互性，成为 Vue 项目中实现数据可视化的首选工具。本文将从基础集成到实战开发，全方位讲解 ECharts 在…

李华

SeedVR：本地AI视频画质重生的突破性解决方案

SeedVR：本地AI视频画质重生的突破性解决方案【免费下载链接】SeedVR-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/SeedVR-7B 你是否曾经面对那些模糊的珍贵视频感到无奈？手机拍摄的家庭聚会、毕业典礼的模糊画面、老旧的VH…

李华

智能量化交易系统：市场微观结构与决策引擎深度解析

智能量化交易系统：市场微观结构与决策引擎深度解析【免费下载链接】Qbot [🔥updating ...] AI 自动量化交易机器人(完全本地部署) AI-powered Quantitative Investment Research Platform. 📃 online docs: https://ufund-me.github.io/Qbot…

李华

GitHub热门推荐：Miniconda-Python3.9镜像助力大模型训练提速在AI研发一线摸爬滚打过的人都知道，最让人头疼的往往不是模型调参，而是环境配置——明明本地跑得好好的代码，换台机器就报错“ModuleNotFoundError”，或是G…

李华

终极指南：如何快速集成移动端富文本编辑器wangEditor

终极指南：如何快速集成移动端富文本编辑器wangEditor 【免费下载链接】H5移动端富文本编辑器wangEditor wangEditor是一款专为移动端设计的富文本编辑器，以其卓越的易用性和流畅的操作体验而著称。无论是内容排版、图片插入，还是其他复杂的文…

李华

领域自适应技术实战指南：跨越数据鸿沟的智能桥梁

领域自适应技术实战指南：跨越数据鸿沟的智能桥梁【免费下载链接】awesome-domain-adaptation 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-domain-adaptation 在当今人工智能飞速发展的时代，领域自适应技术正成为解决数据分布差异问题…

李华