首页归档标签分类
fanferfanfer·May 26, 2026·LLM

Composer 2

Cursor推出的面向agentic软件工程的专用模型,基于Kimi K2.5进行持续预训练与大规模强化学习

LLM
44 min read
fanferfanfer·May 19, 2026·LLM

GLM-5

智谱GLM-5,744B参数MoE模型,采用DSA稀疏注意力与异步智能体强化学习,实现从vibe coding到agentic engineering的跨越

LLM
94 min read
fanferfanfer·May 12, 2026·LLM

Kimi K2.5

月之暗面开源多模态智能体模型,原生多模态预训练与Agent Swarm并行智能体框架

LLM
49 min read
fanferfanfer·May 2, 2026·LLM

MiMo-V2

小米MiMo-V2-Flash技术报告,309B参数MoE模型,混合注意力架构与多教师在线策略蒸馏

LLM
35 min read
fanferfanfer·Apr 22, 2026·LLM

DeepSeek-V3.2

DeepSeek-V3.2技术报告,提出DSA稀疏注意力、可扩展强化学习框架与大规模智能体任务合成

LLM
39 min read
fanferfanfer·Apr 12, 2026·LLM

Ring-1T

Ring-1T:首个万亿参数开源思考模型,采用MoE架构(1T总参数,50B激活),通过IcePoP稳定RL训练、C3PO++优化长尾生成、ASystem框架突破系统瓶颈,在AIME-2025等基准上取得突破性成果。

LLM
16 min read
fanferfanfer·Apr 2, 2026·LLM

GLM-4.5

GLM-4.5:采用MoE架构(355B总参数,32B激活)的混合推理模型,聚焦Agentic、Reasoning和Coding,支持思考与非思考双模式,在AIME 24上达91.0%、SWE-bench Verified上达64.2%。

LLM
35 min read
fanferfanfer·Mar 23, 2026·LLM

MiniMax-M1

MiniMax-M1:基于Lightning Attention的MoE模型(456B总参数,45.9B激活),提出CISPO算法提升RL训练效率,支持80K长上下文推理,在复杂软件工程和工具利用任务上表现突出。

LLM
23 min read
fanferfanfer·Mar 13, 2026·LLM

Ring-lite

Ring-lite:基于MoE架构的小型推理模型(16.8B参数,2.75B激活),提出C3PO算法稳定RL训练,采用两阶段训练范式解决多领域数据冲突,在小模型中达到SOTA水平。

LLM
15 min read
fanferfanfer·Mar 3, 2026·LLM

Skywork-OR1

Skywork-OR1:基于DeepSeek-R1-Distill的高效强化学习推理模型,提出MAGIC训练方法(多阶段自适应熵GRPO),深入分析entropy崩塌现象,在AIME基准上超越DeepSeek-R1。

LLM
16 min read
fanferfanfer·Feb 21, 2026·LLM

MiMO

MiMo-7B推理模型:通过三阶段预训练与强化学习解锁语言模型推理潜力,超越o1-mini

LLM
23 min read
fanferfanfer·Feb 11, 2026·LLM

Qwen3

Qwen3系列模型:统一思考与非思考模式,支持思考预算机制的混合架构大模型

LLM
26 min read
fanferfanfer·Feb 1, 2026·LLM

Seed-Thinking-v1.5

Seed-Thinking-v1.5:字节跳动MoE推理模型,20B激活参数实现卓越推理能力

LLM
20 min read
fanferfanfer·Jan 22, 2026·LLM

DeepSeek-R1

DeepSeek-R1:通过纯强化学习激发LLM推理能力,展示自我进化与蒸馏有效性

LLM
24 min read
fanferfanfer·Jan 12, 2026·LLM

DeepSeek-V3

DeepSeek-V3:融合R1推理数据与GRPO强化学习的高性能大模型

LLM
9 min read