解析 Step 3.5 Flash：196B MoE + 史无前例的“中训练”开源，Agent 时代的真正破局者？

在 2026 年初的 AI 开发者社区，如果说有什么话题能让大家彻夜讨论，那无疑是阶跃星辰（StepFun）在 3 月 4 日全面开源的 Step 3.5 Flash。

作为一款专为智能体（Agent）工作流量身定制的基座大模型，Step 3.5 Flash 不仅在性能和推理成本上实现了惊人的平衡，更以一种业界罕见的“大尺度”开源策略，彻底引爆了沉寂已久的开源生态。今天，我们就来深度拆解这款在 OpenClaw（开发者戏称“小龙虾”）平台上迅速霸榜的明星模型，看看它究竟有何魔力。

一、核心技术解密：如何让“大象”跳舞？

Step 3.5 Flash 的设计哲学非常明确：做智能体最聪明的“大脑”，同时把推理成本打到“骨折”。它没有盲目堆砌参数，而是通过精妙的架构创新实现了降本增效。

1. 极致的稀疏 MoE 架构：196B 的底蕴，11B 的轻盈

大模型时代，“大”往往意味着昂贵。Step 3.5 Flash 拥有高达 1960 亿（196B） 的总参数量，这保证了它拥有极其渊博的知识储备和复杂的逻辑推理能力。然而，令人惊艳的是，它在每次处理 Token 时，仅激活约 110 亿（11B）参数。

这种“大模型、小激活”的极致 MoE（混合专家）架构，意味着你是在用运行百亿参数模型的算力成本，去享受千亿参数模型的智商红利。

2. MTP-3 多标语预测：天下武功，唯快不破

传统的 LLM 像是一个谨慎的打字员，一次只能预测下一个词。而 Step 3.5 Flash 搭载了先进的 MTP-3（Multi-Token Prediction）技术，能够一次性“看透”并预测后续的 3 个 Token。

在实际的单请求代码类任务中，它的峰值生成速度飙升至惊人的 350 TPS（Tokens Per Second）。对于需要频繁进行多步思考和工具调用的 Agent 来说，这种极致的低延迟让整个工作流如丝般顺滑。

3. 混合注意力机制：256K 超长上下文的“抓大放小”

面对动辄十几万行的长代码库或海量企业文档，Step 3.5 Flash 采用了 3:1 的滑动窗口注意力（SWA）与全局注意力（Full Attention）混合架构。

简单来说，就是每三层局部注意力层，搭配一层全局注意力层。模型学会了在阅读长文时只抓“重点”，这使得它在处理 256K 超长上下文时，计算开销得到了极其显著的降低，彻底告别了长文本推理的显存噩梦。

二、史无前例的开源姿态：把“厨房”一并交给你

纵观目前的开源圈，大多数厂商只愿意放出最终对齐后的成品（Chat/Instruct 版本）。开发者只能像吃快餐一样直接使用，很难根据自身业务进行深度定制。

而阶跃星辰这次的开源，堪称“把厨房连同菜谱一起送给了开发者”：

预训练权重（Base）： 毫无保留地放出了拥有最广泛通用知识的基础模型，算力大户可以尽情从头折腾。
中训练权重（Midtrain）： 这是本次开源的绝对核心。 Midtrain 阶段已经为模型注入了强大的逻辑推理、代码编写和工具调用（Tool Use）能力。基于这个版本，开发者只需极少的数据和算力，就能低成本微调出极具行业深度的专属 Agent。
Steptron 官方训练框架： 同步开源了从持续预训练到有监督微调（SFT）的全套官方代码。不仅给你模型，还教你怎么训练模型，真正做到了授人以渔。

三、本地部署与生态适配：极客与企业的双重福音

强大的模型如果只能跑在云端昂贵的集群上，那它的意义将大打折扣。Step 3.5 Flash 在工程落地上的表现同样令人振奋。

得益于 11B 的极低激活参数和高效的内存管理，普通开发者和中小企业完全可以在高端消费级硬件上将其跑满。 例如，在一台配备 128GB 统一内存的 Mac Studio（M4 Max 芯片）上，通过 int4 GGUF 量化部署，Step 3.5 Flash 依然能稳定输出 30+ tokens/s 的速度。这对于高度重视数据隐私、需要纯本地离线部署的金融、医疗等行业来说，无疑是一个完美的解决方案。

此外，在国产化算力方面，它已经完成了与华为昇腾、沐曦、壁仞、燧原等多家国产 AI 芯片的底层适配，开箱即用，生态协同极为完善。

结语：Agent 开发的新纪元

Step 3.5 Flash 的出现，不仅仅是一个技术指标的突破，更是一次开源精神的回归。它以逼近顶级闭源模型的实力、极具性价比的推理成本，以及毫无保留的开源策略，为全行业的 Agent 创新铺平了道路。

大航海时代已经开启，面对这样一款充满诚意的基座模型，你准备好构建属于你自己的超级智能体了吗？

版权属于：soarli
本文链接：https://blog.soarli.top/archives/926.html
转载时须注明出处及本声明。

解析 Step 3.5 Flash：196B MoE + 史无前例的“中训练”开源，Agent 时代的真正破局者？

一、核心技术解密：如何让“大象”跳舞？

1. 极致的稀疏 MoE 架构：196B 的底蕴，11B 的轻盈

2. MTP-3 多标语预测：天下武功，唯快不破

3. 混合注意力机制：256K 超长上下文的“抓大放小”

二、史无前例的开源姿态：把“厨房”一并交给你

三、本地部署与生态适配：极客与企业的双重福音

结语：Agent 开发的新纪元

发表评论取消回复

深度解析：AI时代新型程序员与产品经理的机遇、挑战与演进路径研究

Handsome主题内置的fontello图标

批处理命令start与kill的用法

Linux查看系统进程、kill命令杀死进程

张小龙的产品观

解决Ubuntu下因依赖包而无法安装问题

经济法学课堂笔记

Nextcloud Talk配置使用笔记

在iOS设备上安装kodi的方法

Nextcloud安装及WebDAV配置笔记

一、 核心技术解密：如何让“大象”跳舞？

1. 极致的稀疏 MoE 架构：196B 的底蕴，11B 的轻盈

2. MTP-3 多标语预测：天下武功，唯快不破

3. 混合注意力机制：256K 超长上下文的“抓大放小”

二、 史无前例的开源姿态：把“厨房”一并交给你

三、 本地部署与生态适配：极客与企业的双重福音

结语：Agent 开发的新纪元

发表评论 取消回复

一、核心技术解密：如何让“大象”跳舞？

二、史无前例的开源姿态：把“厨房”一并交给你

三、本地部署与生态适配：极客与企业的双重福音

发表评论取消回复