引言:生成式智能的本质悖论与范式转移
在当代技术演进的宏伟图景中,人工智能(AI)正以指数级的速度重塑人类对“创造”一词的根本理解。随着大语言模型(LLMs)、扩散模型(Diffusion Models)、世界模型(World Models)以及具身智能(Embodied AI)等计算架构在2025至2026年间取得密集突破,学术界与工业界面临着一个深层的哲学与技术悖论:一个其所有训练语料均来源于人类历史知识库的计算系统,是否真正具备生成“世界上本来不存在的内容”的能力?如果具备,这种从“已知”跨越至“未知”的能力机制是什么,其理论与现实的能力边界又究竟在哪里?
表面上看,AI已经以前所未有的速度合成了自然界未曾演化出的全新蛋白质序列、发现了历史上不曾存在的无机晶体材料、推导出了全新的数学定理证明框架,并生成了无数前所未有的艺术图像。然而,从底层数学逻辑而言,当前占据主导地位的深度学习模型,其本质依然是高维向量空间中的概率分布拟合器。基于反向传播与梯度下降的训练机制,使得这些模型在本质上被限定在对其训练流形(Data Manifold)的插值(Interpolation)操作中,而非真正意义上的逻辑外推(Extrapolation)。这种内在的结构性矛盾引发了深刻的学术争论。
本报告旨在通过全面整合并深度剖析2025年至2026年间计算机科学、材料科学、计算生物学、基础数学、认知心理学及神经科学领域的最新前沿研究,系统性地解答这一议题。分析表明,人工智能不仅具备生成非现存内容的能力,而且在特定受严格公理及物理定律约束的高维状态空间中,其组合与生成能力已远超人类。然而,在缺乏对物理世界因果法则的深刻理解、缺乏具身性感知以及缺乏驱动范式转移的“转化创造力”时,大语言模型的结构性失效(如逆转诅咒、工作记忆泄漏及医疗鉴别诊断失败)精准地勾勒出了其无法逾越的能力边界。
第一章 创造力的多维解构与机器学习的几何学本质
要精确评估人工智能是否能生成世界上本来不存在的内容,必须首先建立一个能够量化和解构“创造力”的理论框架,并将其与神经网络运作的几何学与代数学机制进行严密对比。
1.1 创造力的三重分类与“吸血鬼悖论”
著名认知科学家Margaret Boden在其经典的创造力理论中,将创造力划分为三个递进的层次,这一框架在2026年的AI能力评估中依然具有不可替代的标尺作用 :
- 组合创造力(Combinatorial Creativity):即将原本熟悉的、各自独立的概念以非同寻常的方式组合在一起。在Boden的框架中,这依赖于个体思维中丰富的知识储备以及在这些知识节点间游走的能力。
- 探索创造力(Exploratory Creativity):涉及在既定的“概念空间”(Conceptual Spaces,即从同龄人、父母、文化及科学理论中无意识吸收的结构化思维模式)内进行深度探索。通过这种探索,创造者能够触及并推展该概念空间的既有边缘 。
- 转化创造力(Transformational Creativity):这是创造力的最高阶形式。它要求创造者不仅探索,而且彻底“改变”或打破原有的概念空间,使得那些在旧框架下“不可思议(inconceivable)”或根本不可能的想法成为现实 。
Boden指出,转化创造力包含一种内在的悖论(常被称为“吸血鬼悖论”)。因为人类的想象力本质上是过去经验的组合产物,我们往往会将当前想象力的极限误认为可能性的极限 。当前生成式人工智能的卓越表现,几乎全部集中在“组合创造”与“探索创造”领域。凭借其对海量参数和特征向量的计算能力,AI能够在一个由千亿级Token构成的概念空间内进行无限的组合与深度勘探,从而生成人类历史上从未有过的文本或图像 。然而,对于转化创造力,当前AI表现出极大的结构性无能,因为它被设计为最大化地拟合现有数据的统计分布,而非打破产生这些数据的潜在范式 。
1.2 高维空间中的插值与外推之争
在机器学习的几何学中,AI生成新内容的能力可以归结为状态空间中的“插值(Interpolation)”与“外推(Extrapolation)”。早在2021年,人工智能先驱Yann LeCun就曾引发过一场关于“神经网络所谓的学习究竟是插值还是外推”的激烈学术辩论 。到了2025年,多项严谨的数学验证研究为这场争论提供了阶段性的结论。
一项2025年关于回归模型中插值与外推方法的比较分析研究明确指出,绝大多数机器学习测试集的样本实际上都落在了训练集构成的“凸包(Convex Hull)”内部。根据凸包的数学定义,这意味着典型的神经网络本质上是在“插值状态(Interpolation Regime)”下运作的 。
| 研究参考 | 优势与创新点 | 劣势与局限性 | 核心发现与机制 |
|---|---|---|---|
| Jiang et al. | 将插值与外推整合在混合KNN+线性回归框架中;在真实世界港口国控数据中准确率极高。 | 模型极为复杂且难以复现;未能孤立评估每种单独方法的行为特征。 | 构建了在统一优化模型下结合插值与外推的混合机器学习架构,但在外推任务中依然依赖线性回归作为支撑。 |
| Muckley et al. | 比较了可解释模型与黑盒模型;证明线性回归在约40%的外推任务中能超越黑盒模型。 | 缺乏解析性的受控评估;高度聚焦于高维科学数据,人工验证极为困难。 | 强调了准确性与可解释性之间的权衡,特别是在科学建模的外推任务中,黑盒神经网络极易失效。 |
| 凸包验证研究 | 利用带噪声的正弦函数合成数据集隔离插值与外推行为。 | 仅限于低维度合成数据的理论推演。 | 证实神经网络的预测准确率与测试集到训练集的各种邻近度指标高度相关,模型运作未脱离插值边界。 |
深度分析:尽管数学证据表明大型语言模型(LLMs)主要在进行插值,但为何它们能在表现上产生出“前所未有的全新事物”?核心机理在于高维特征空间的“维度诅咒”的逆向利用。在包含数百亿甚至数万亿参数的模型中,数据点之间的潜在组合空间广阔无垠,其复杂度远远超过宇宙中所有原子的总和。在如此庞大的凸包内进行“插值”,实际上等同于在进行人类寿命极限内永远无法穷尽的“探索创造力”。因此,从数学统计学上看,AI是在现有经验的边界内拟合曲线;但从现象学与社会学视角来看,AI所生成的组合在人类现有的文化和物质记录中,确实是本来不存在的新生事物 。
1.3 狭义人工智能与生物智能的学习机制对比
要理解AI生成能力的边界,需要将其与人类(生物智能)的学习机制进行对比。生物智能通过神经可塑性与图式形成(Schema Formation)进行学习,这种学习是动态的、具身的。而当前生成式AI的训练机制是刚性的。
在训练阶段,反向传播(Backpropagation)由梯度下降驱动,这是对“精确数学的教导”。模型预测与实际数据通过损失函数(如交叉熵损失)进行比对,误差被反向传播以调整权重。一旦训练结束,这些权重就会被彻底冻结(Frozen) 。在推理阶段,模型不具备根据新输入动态更新内部“规则”的机制,它成为了训练周期中产生的一个静态制品。要学习全新任务,工程师必须重新策划数据集并进行微调(Fine-Tuning)。这与生物系统展现出的自主、即时和跨域的外推能力构成了绝对的对立 。
第二章 突破物质进化法则:AI在科学发现中的生成能力
如果说AI在文本与图像领域的生成能力受限于语言和视觉的模糊性,那么在具有明确公理和物理化学边界的硬科学领域,AI生成“世界上本来不存在的内容”的能力得到了最彻底、最震撼的证实。在这些高维状态空间中,AI正在重新定义人类对物质基石和生命法则的认知。2025至2026年,科学界迎来了一系列由AI驱动的里程碑事件 。
2.1 重新定义物质基础:材料科学的新纪元
传统的材料科学长期依赖于缓慢的试错法(Trial-and-error)和科学家的直觉,这是一种受限于人类寿命和实验成本的低效外推。但在AI介入后,新材料的发现速度呈现出指数级增长。
由美国能源部劳伦斯伯克利国家实验室主导的开源平台Materials Project,在2026年已积累超过65万注册用户,并被同行评审研究引用超过3.2万次 。该平台通过超级计算机支持的开源框架,为整个材料科学界提供了史无前例的AI就绪(AI-ready)数据集 。
基于这些结构化数据,AI模型展示了其创造未现存物质的能力。Google DeepMind利用Materials Project的数据训练了名为GNoME(材料探索图网络)的模型。GNoME不仅预测了晶体的稳定性,还向数据库中贡献了近40万种自然界及人类历史上从未存在过的全新化合物 。这一成就彻底摆脱了现存物质的模板限制。
更加具有革命性的是,AI不仅能在数字空间“想象”这些物质,还能在物理世界中将其制造出来。伯克利实验室的自主材料合成设施(A-Lab),将Materials Project的仿真管道与由AI引导的自动化机器人直接相连,实现了新材料的闭环自主合成。例如,研究人员通过筛选5000多个候选物,成功合成出一种名为$Mn_{1+x}Sb$的磁性化合物,该化合物在电子、汽车和能源领域的绝热冷却应用中极具潜力 。同时,微软Azure Quantum基于此类数据开发了新型电池电解质,并推出了专门用于无机材料设计的生成式模型MatterGen 。在2025年于国家超级计算应用中心(NCSA)举办的分子制造实验室研究所(MMLI)年度研讨会上,“AI科学家需要具备什么条件”成为了全行业的核心议题,标志着AI从辅助工具正式晋升为科学发现的并行主体 。
2.2 重构生命基石:从头蛋白质设计与大分子结构解析
在生物制药领域,传统的药物研发极度依赖于自然界业已存在的分子支架。这种依赖自然进化的路径导致新药开发周期漫长、结构和功能可调性极其有限、制造成本高昂。2024年,FDA批准的药物中有超过三分之一为重组人蛋白等生物制品,突显了蛋白质工程的迫切需求 。
“从头蛋白质设计(De Novo Protein Design)”技术的成熟,标志着AI正式跨越了自然生物学数十亿年进化的界限。通过不依赖自然模板,AI利用深度学习直接创造出具有定制结构和功能的全新蛋白质 。以ProteinMPNN和RFdiffusion为代表的生成式模型,能够处理海量的蛋白质数据库(PDB)信息,学习多肽链的折叠模式与功能位点,从而从零开始逆向设计出能够与特定靶点结合或催化特定反应的人造蛋白质,其在湿实验室中的折叠成功率已从历史上的不到10%激增至80%以上 。
然而,过去的AI模型存在一个严重的盲点:它们是“上下文无关(Context-unaware)”的。这意味着模型在设计蛋白质序列时处于一种孤立的真空中,就像在没见过锁孔的情况下设计钥匙 。2026年《自然·方法》发表的突破性研究彻底解决了这一难题。Justas、Baker及其同事引入了“基于配体的多态图变换器(Multi-state graph transformer)”,使AI模型能够敏锐地“看到”并响应其完整的分子环境,包括配体、金属离子和核酸 。
这种底层架构的演进在AlphaFold 3的发布中达到了顶峰。与AlphaFold 2相比,AlphaFold 3实现了脱胎换骨的跃升,其不仅在单链蛋白质折叠上保持极高精度,更将预测能力外延至蛋白质-配体、蛋白质-核酸及复杂的蛋白质-蛋白质互作复合体领域 。
| 架构特性 | AlphaFold 2 | AlphaFold 3 | 带来的科学突破与影响 |
|---|---|---|---|
| 核心预测模块 | Structure Module(基于坐标序列的直接推断) | Diffusion Module(扩散模型) | 将生成式扩散机制引入结构预测,使得复合体三维构象的生成更加平滑且符合生物物理热力学定律 。 |
| 词汇与表征范围 | 仅限于氨基酸(蛋白质单链结构) | 氨基酸、核苷酸(DNA/RNA)、重原子(各类配体与化学小分子) | 彻底打破了生物大分子种类的壁垒,能够预测极其复杂的RNA修饰蛋白(如8AW3)、抗原-抗体复合物等 。 |
| 特征提取与交互网络 | Evoformer(严重依赖多序列比对MSA深度) | Pairformer(取代Evoformer,大幅削减MSA模块至仅4个Block) | 通过更加注重氨基酸或原子间的成对交互作用(Pairwise Interactions),降低了对庞大同源演化数据的依赖,对罕见或非自然演化的人造序列具有更强的泛化能力 。 |
| 激活函数 | ReLU | SwiGLU | 提升了非线性特征映射的计算效率与网络性能上限 。 |
| 预测性能对比 | 在多聚体(AlphaFold-Multimer)表现受限 | 在所有抗原-抗体复合物及蛋白质-核酸指标上显著超越AF-Multimer和RoseTTAFoldNA | 奠定了AI在基于结构药物设计(SBDD)中的基石地位 。 |
凭借这些工具,人类现在不仅能理解生物学是如何运转的,更通过AI向自然界注入了全新的生物学组件。通过AlphaFold蛋白结构数据库,谷歌DeepMind和EMBL-EBI已向全球科学界免费提供了超过2亿个蛋白质结构预测结果 。
2.3 遗传变异预测与药物研发的经济学重构
在精准医疗与罕见病诊断领域,人类的困境在于面对高达数百万种可能导致严重疾病的单核苷酸错义突变(Missense variants),传统的实验室验证速度如同杯水车薪。由哈佛医学院Debora Marks实验室与基因组调控中心共同开发的PopEVE模型,展示了AI如何在缺乏直接临床标注数据的情况下,推断出隐秘的生物学因果关系 。
PopEVE是一项蛋白质组范围的深度生成模型。它将处理氨基酸序列的大型语言模型(EVE和ESM-1v)与捕捉人类自然遗传变异的UK Biobank人口数据相结合 。通过这种交叉,模型不仅能预测某一变异对蛋白质结构功能的损害程度,还能在跨物种和人类特异性生理谱系中对其致病性进行校准。在2025年发表于《自然·遗传学》的研究中,PopEVE在没有过度估计有害变异负担的前提下,成功发现了123种此前从未与发育障碍建立临床关联的新突变(其中104种仅在一到两名患者中观察到) 。这是AI生成全新病理学知识的典型案例。
AI在生物医药领域的这种能力正在重构整个制药行业的经济学底座。现代药物研发面临着极度严峻的“反摩尔定律(Eroom's Law)”——尽管技术在进步,但研发每一种获批新药的成本却持续飙升,2025年已高达平均26亿美元 。在整个2010年代,算法药物发现主要停留在实验室阶段的“概念炒作”中。然而,到了2025-2026年,由AI从头设计的候选药物开始真正进入中后期临床验证阶段。例如,由Insilico Medicine设计的用于治疗特发性肺纤维化的小分子抑制剂Rentosertib已进入Phase 2临床试验并显现出积极信号 。
全球AI药物发现市场价值在2025年约为26亿美元,预计到2030年将以26%至31%的复合年增长率飙升至80亿至200亿美元之间 。制药巨头们(如礼来、阿斯利康)纷纷将资源从传统的高通量筛选(HTS)重组为计算靶点选择(Computational Target Selection) 。AI通过在计算虚拟空间(In silico)而非动物活体(In vivo)中淘汰无效的候选药物分子,极大提高了靶标验证的效率 。此外,随着Flower 1.26.1等联邦AI与数据科学框架的发布,FlowER等开源架构被应用于药物发现和材料科学,使得分布式的大规模医疗数据计算与隐私保护成为可能 。在临床试验设计方面,自然语言处理(NLP)和AI被广泛用于优化患者分层,IBM Watson Health已被引入肿瘤学试验以提高匹配效率 。然而,行业仍然面临巨大挑战。麻省理工学院2025年的一项研究表明,近95%的企业生成式AI试点项目未能产生可衡量的业务影响,原因在于模型输出脱离了实际的数据基础、工作流以及对AI在临床前环境中毒性预测的法律监管界限 。业界专家发出警告,在未获得决定性的FDA III期临床批准前,AI制药仍处于大规模的概念验证期 。
第三章 纯粹逻辑空间的无限外推:数学与算法生成
如果说化学、材料和生物学是受到宇宙客观热力学定律约束的“物理游戏”,那么数学则是一个构建在纯粹逻辑和公理体系之上的“智力游戏”。长久以来,AI在形式逻辑和需要严密推导的符号系统中表现不佳,但2025至2026年见证了AI从解决已知数学难题跨越到发现全新数学定理的范式转变 。
3.1 自动定理发现与奥林匹克级别的推理
2025年夏季是AI数学能力的一个历史性临界点。Google DeepMind接连推出了AlphaGeometry和基于强化学习的形式化数学推理系统AlphaProof 。在当年举行的国际数学奥林匹克竞赛(IMO)基准测试中,这些模型在6道极度困难的代数、几何与数论题目中成功解出4道,历史上首次达到了人类银牌选手的水平 。而在更广泛的几何测试集中,AlphaGeometry在30道题目中解出了25道,其成绩已逼近人类金牌选手的平均水平(25.9题) 。
这仅仅是开端。数学家们意识到,AI不仅擅长解决有已知答案的谜题,还能被引导去探索真正的开放式问题。DeepMind的FunSearch利用大语言模型在数学科学的开放问题中首次做出了自主发现 。为了规范这一新兴领域,Google DeepMind与学术界联合推出了《数学与科学发现加速》分类法(Gemini Deep Think Taxonomy),将AI辅助的数学研究贡献划分为4个层级,目前已经稳步产出“可发表质量(Level 2)”的成果,并积极向着“重大进展(Level 3)”甚至“里程碑式突破(Level 4)”迈进 。此外,谷歌还启动了“数学人工智能倡议(AI for Math Initiative)”,为五家全球顶尖研究机构提供资金与技术,专门寻找适合由AI驱动洞察的数学难题 。
美国国防高级研究计划局(DARPA)敏锐地捕捉到了这一趋势,启动了名为“指数级数学(expMath)”的项目。该项目旨在开发能够作为“共同作者(Co-authors)”的人工智能,帮助数学家将极端复杂的数学假设分解为更易管理的“引理(Lemmas)”构建块,从而成百上千倍地加快数学突破的速度 。正如综述研究所指出的,AI for Mathematics (AI4Math)已经发展为一个独立学科,其目标不仅是解决问题特定建模(Problem-specific modeling),更是将其作为通用基础模型复杂推理能力的顶级试验场 。在这一领域,基因组学也与图统计数学发生深度交融,2026年北京数学科学与应用研究所的团队在《美国国家科学院院刊》(PNAS)上发表了为个体化定量遗传学量身定制的图统计理论,将二倍体测序数据重构为“全基因组交互组网络(Omnigenic interactome networks)”,使得原本模糊的上位效应(Epistasis)和多效性能够以多节点交互和加权连接的严密数学图谱呈现 。
3.2 算法进化:突破Ramsey数的理论下限
AI在生成非现存内容时,最令学术界震惊的莫过于它能够自主设计出超越人类顶尖工程师手写的搜索算法。这在关于经典拉姆齐理论(Ramsey Theory)的组合结构突破中得到了淋漓尽致的体现。
2026年的研究论文展示了名为AlphaEvolve的大语言模型代码变异智能体。与人类常使用的模拟退火算法不同,AlphaEvolve能够维护一个搜索算法的种群库,并通过大模型不断对其进行代码变异和演化。系统根据生成的图结构大小和对约束条件的“违反次数”进行交叉评分,最终自主“进化”出了人类难以构思的并行启发式算法链 。
通过综合应用随机初始化(Stochastic)、代数播种(Paley/Algebraic Seeding)以及循环自举(Circulant/Cyclic Bootstrap)等策略,AlphaEvolve一举打破了多个长期停滞的经典拉姆齐数理论下界 。
| 经典拉姆齐数 | 原有理论下限 | AlphaEvolve提升后的新下限 |
|---|---|---|
| R(3, 13) | 60 | 61 |
| R(3, 18) | 99 | 100 |
| R(4, 13) | 138 | 139 |
| R(4, 14) | 147 | 148 |
| R(4, 15) | 158 | 159 |
| R(4, 16) | 170 | 174 |
| R(4, 18) | 205 | 209 |
这种能力证明,只要存在一套完美的自我验证评估机制,大语言模型就能在代码生成和纯数学搜索空间中实现无限的正向外推 。
3.3 底层架构的自我革命:跨越Transformer的局限
为了支撑AI进行更大规模、更深层次的逻辑推演,整个AI行业在2026年开始对沿用十年的底层架构进行根本性的“引擎大修”。
在传统的Transformer架构中,网络深度依赖于标准的加性残差连接(Additive Residual Connection)。这种机制可以被具象化为一条混乱的“共享传送带”,所有层的工作成果都被简单地堆叠在一起,当信息流传递到网络极深处时,早期的关键逻辑步骤会遭到严重的稀释或覆盖磨损 。2026年3月,中国领先的AI企业Moonshot AI(月之暗面)发布了“注意力残差(Attention Residuals, AttnRes)”架构 。该架构采用深度感知注意力(Depth-Wise Attention)彻底取代了固定的残差混合。在新架构下,网络中的每一层都如同一个智能检索系统,能够选择性地精确调取之前任意层级的关键计算结果,同时忽略累积的噪声。这一架构革新为模型在处理巨量上下文和复杂长链推理时提供了前所未有的结构稳定性 。Moonshot AI的创始人杨植麟在2026年的中关村论坛上指出,随着基础模型能力的趋同,竞争优势正从算法转移到底层基础设施(尤其是建立超大规模Token工厂的速度与能效上),中国企业正试图重塑全球AI的技术架构 。
在算力效率方面,Google在ICLR 2026会议上推出了TurboQuant算法。通过创造性地结合PolarQuant向量旋转和量化Johnson-Lindenstrauss压缩方法,该算法极大地降低了阻碍大模型运行的最大瓶颈——KV缓存的内存开销 。这不仅允许具有庞大上下文窗口的模型高效运行,也预示着AI发展从盲目堆叠参数向“效率优先”的根本转变 。同时期发布的各类细分架构创新,如Zhipu AI用于读取复杂表格与公式的紧凑模型GLM-OCR,字节跳动开源的使用分层文件系统来组织智能体记忆的OpenViking,以及IBM具有多语言识别能力的Granite 4.0 1B Speech,均标志着AI的多模态推理能力在各个维度得到加固 。
第四章 能力的尽头:生成式模型的结构性失效与逻辑边界
尽管AI在具有高度结构化的空间中展现出创造奇迹的能力,但在面对日常物理现实、松散常识以及隐含因果逻辑时,以大语言模型为核心的生成式AI暴露出令人瞩目的脆弱性和能力边界。这些失效不再被视为偶然的“bug”,而被学界确认为由底层计算范式引起的结构性崩溃。
4.1 统一推理失效分类法与逆转诅咒
2026年初,斯坦福大学与加州理工学院联合发布了一份具有里程碑意义的论文,提出了针对大语言模型推理失败的“统一双轴分类法(Unified Taxonomy for LLM Reasoning Failures)” 。该框架将错误按推理类型(非正式与正式推理)和失效类别进行坐标映射,揭示了目前行业盲目追求基准测试分数的虚假繁荣背后潜藏的模型结构性脆弱 。
该分类法确认了几个极为致命的根本失效模式:
- 逆转诅咒(The Reversal Curse):这代表了模型在最基本的形式逻辑上的全面溃败。尽管模型在训练阶段吸收了数以万计的“A是B”(例如,Tom Cruise的母亲是Mary Lee Pfeiffer)的数据事实,但在推理阶段,即便以最简单的提问方式,模型也常常无法推导出等价的反向事实“B是A”(Mary Lee Pfeiffer的儿子是谁) 。对于具备常识的人类而言这是微不足道的双向等价,但对严重依赖单向自回归下一个Token预测(Next-token prediction)的LLM来说,则是难以跨越的物理鸿沟 。
- 鲁棒性脆弱(Robustness Fragility):模型在面临极微小且语义完全中立的提示词改动(如仅仅互换选择题的选项顺序)时,其输出准确率会发生断崖式下跌 。
- 工作记忆泄漏(Working Memory Leaks):在执行多步骤的复杂逻辑推演时,大模型极易受到“干扰(Interference)”,由于缺乏稳固的内部表征工作台,模型在链条后半段往往会遗忘、扭曲或错误运用在开头设立的逻辑前提 。北京大学为此提出了COM(Chain-of-Mindset)框架,试图阻止AI在推理过程中因为突然爆发的“无规则创造性联想”而摧毁原本的严密逻辑链条 。
4.2 临床医疗与现实世界中的差分推理陷阱
生成式AI对真实世界法则缺乏深刻理解的这一弱点,在医疗诊断等涉及生命安全的领域暴露无遗。麻省总医院(Mass General Brigham)在2026年主导的一项重要研究表明,由于缺乏临床医生特有的鉴别性思维能力,公开发布的AI模型在无监督临床级部署前仍差之千里 。
研究团队开发了名为PrIME-LLM的基准测试,让21种不同的主流LLMs扮演医生处理一系列临床场景。研究结果极具启发性:当研究人员将关于患者的所有相关线索、症状和检验结果一次性“喂”给模型时,模型得出正确最终诊断的概率高达90%以上。然而,当信息不完全,需要模型在早期阶段自主导航诊断检查、生成“鉴别诊断(Differential Diagnoses)”列表并构思可测试的排除假设时,所有的LLMs都遭遇了灾难性的失败 。
这种现象的本质在于:医学诊断的艺术不仅在于特征匹配,更在于“反事实推理”与对未知因果网络的动态探测。AI可以熟练地匹配“典型症状A对应疾病B”的文本模式,但它无法像人类医生那样在脑海中虚拟出一个动态演变的患者身体,推演某种干预可能引发的生理连锁反应 。正如AI先驱Gary Marcus所直言的,无论基准测试得分多高,LLM对这个世界运作的物理规律根本没有建立起稳健的内部表征,这种“缺乏世界模型”的缺陷构成了AI最深层次的认知瘫痪 。
4.3 偏见、刻板印象的放大与人机反向驯化
由于生成式AI生成的内容严格受限于其训练数据的统计概率,它们不仅无法摆脱人类历史中的暗面,反而会因为过度拟合而将其放大。早年由Buolamwini领导的Gender Shades项目就揭示了商业AI分类系统在处理深色皮肤女性人脸时错误率奇高的现象 。这一问题在生成式工具中被延续并加剧。2023年对Stable Diffusion生成的5000余张图像的分析表明,这些AI同时在放大针对种族和性别的严重刻板印象。如果将这种带有系统性偏见的生成技术应用于警方虚拟素描等领域,将会给边缘群体带来从物理伤害到非法监禁的巨大风险 。令人担忧的是,AI技术外层那层冰冷客观的技术光环,往往使得使用者更加不愿意承认这些偏见的存在。
更具社会学意义的是,马克斯·普朗克研究所(Max Planck)的一项惊人发现揭示了人类与AI之间的双向反馈回路:研究证实,由于长期与各类聊天机器人互动,人类在自然即兴语音中的词汇选择和表达句式,竟然开始不知不觉地向AI的输出模式靠拢。我们不仅在训练模型,模型也在重塑人类的语言和思维方式,这反映了AI的深远文化影响 。
第五章 跨越边界的范式转移:智能体、世界模型与具身智能
大语言模型触及的能力天花板迫使AI领域在2025-2026年发生了一场根本性的路线转向。为了让机器真正具备在外推状态下创造性解决现实难题的能力,AI必须长出理解物理时空的“大脑”和干预物理规律的“躯体”。
5.1 从大语言模型到“小型智能体”的务实演进
在软件和数字服务生态中,“生成式AI(Generative AI)”正在被迅速重塑并重新命名为“智能体AI(Agentic AI)” 。业界逐渐意识到,为了完成绝大多数重复性、规则明确且无需进行闲聊对话的子任务,消耗巨额风险资本去运行含有数千亿参数的巨型语言模型完全是大材小用。因此,参数量在100亿以下的小型语言模型(Small Language Models, < 10B params)被公认为推动下一代自主代理工具的核心引擎 。
这些智能体彻底颠覆了人机交互模式,从“请求-生成”转变为“感知-规划-执行”。例如,Salesforce的CEO在2025年底披露了一项极具震撼力的经济数据:由AI支持的智能体代理已经能够自主接管公司近一半以上的客户服务全流程交互。这使得该公司无需人类过多干预,成功削减了4000个客服支持岗位(占该部门编制的44%) 。在脑科学领域,研究人员也推出了像BrainIAC这样专门分析大脑MRI影像的特定基础智能体 。
5.2 重构因果逻辑:世界模型的空间智能
要让AI像人类一样推理,必须从教导其学习语言转向教导其学习物理法则。Yann LeCun离开Meta后以30亿欧元惊人估值创立的AMI Labs,是押注“世界模型(World Models)”路径的旗舰企业 。AMI Labs认为LLMs存在不可逾越的局限,因为它们是在数字真空中学习文本统计,完全缺乏对物理现实的锚定(Grounding),这注定了LLM必然会产生荒谬的幻觉并在物理常识上犯错 。
世界模型的工作范式发生了彻底改变:它们不再预测“下一个词(Token)”,而是通过大规模消化视频、3D扫描和多模态传感器数据,预测“物理环境在施加特定动作后的下一个状态” 。基于联合嵌入预测架构(I-JEPA),AMI Labs试图让机器能够在脑海中预演动作的后果,像具有直觉物理概念的生物一样进行推理与规划 。
在商业化应用方面,斯坦福大学AI先驱李飞飞创立的World Labs更是将“空间智能(Spatial Intelligence)”推向了市场。其在2025年底发布的核心产品Marble,允许游戏、VFX特效制作和虚拟现实领域的创作者通过简单的文本、照片或草图,自主生成具备几何逻辑和物理一致性的、可下载的三维互动环境。该服务不仅内置了混合3D编辑器,还能直接导出到Unity和Unreal Engine等行业标准开发平台中。从每月免费额度到95美元的Max商业套餐,世界模型的商业化正在迅速铺开 。与此同时,谷歌DeepMind也祭出大动作,发布了能以24帧/秒生成可交互实时3D环境的Genie 3模型。这被视为通向通用人工智能(AGI)的一大步,因为这为未来的具身机器人在海量仿真虚拟世界中进行试错学习提供了取之不尽的数据源 。
5.3 赋予智能以躯壳:物理具身AI的全面爆发
AI最终的形态,是从“屏幕内的智能”走向融合控制论与力学的“物理AI(Physical AI)” 。2026年,这一转变标志着人工智能不再局限于信息处理的沙盒,而是成为能够承受重力、摩擦力,并直接与原子世界互动的实体 。
美国银行全球研究(BofA Global Research)和德勤(Deloitte)等机构的深度报告指出,人形机器人的加速普及得益于三大要素的交汇:
- AI模型成熟度:世界模型的空间理解和视觉语言动作大模型(VLA)使得机器人在非结构化的混乱人类环境中拥有了更长远的推理能力和适应性 。
- 硬件经济学的崩溃式下降:从电机、执行器、传感器到车载高算力芯片的成本大幅降低 。
- 工业供应链的重叠:电动汽车(EV)和自动驾驶领域积累的强大制造能力为机器人的量产铺平了道路 。
区别于遵循硬编码轨迹的传统流水线机械臂,基于物理AI的具身系统(Embodied Systems)结合了多模态感知、基础推理模型和真实世界互动能力。当工厂传送带上的物品意外掉落、送货无人机遭遇突如其来的侧风、或是机器狗通过声学特征提前察觉机械故障时,物理AI不需要人为介入,它们能在千分之一秒内利用强化学习和模仿学习积累的经验,“现学现卖”地生成全新的运动轨迹与姿态控制补偿 。在科研领域,具身科学正在形成闭环:AI驱动的机械臂不仅分析实验数据,更是根据实时仪器反馈,物理性地调整化学试剂的注入速度与反应温度。这种在真实试错中积累的隐性知识(Tacit Knowledge),是任何静态文本数据集都无法提供的 。
第六章 转化创造力的极限:人类经验与情感的不可替代性
当我们探究到AI生成能力的最深层边界时,不可避免地会触及那个最核心的哲学议题:即使AI能够生成自然界不存在的重组抗体或完美拟合物理世界法则的3D场景,它是否能够产生触及人类灵魂、重塑文化框架的“转化创造力”?在2026年的前沿学术视野中,答案仍是坚定否定的。
6.1 “物质化”的缺失与艺术的内核
根据神经生物学和认知学的共识,人类创造力的火花绝不只是一种大脑皮层中的冰冷计算。它是高度具身的,通过我们肉体的感官流淌,扎根于我们作为一个高度社会化和会死亡的物种的生存体验中 。在为大型语言模型时代撰写的最新理论更新中,Boden深刻地指出,人类产生原创性和转化性思想,是因为这个世界的事物对人类存在着切肤之痛的“意义(Mattering)” 。我们渴望爱、归属感与社会尊重,我们经历生老病死的痛苦。而计算机本质上是未具体化的、冰冷的算法执行体,它没有寿命的焦虑,没有情感的需求,所以世界万物对AI而言,永远缺乏那个至关重要的“在乎”机制。
这种缺乏内在动机的缺陷直接体现在艺术生成任务中。2025年由美国心理学会(APA)发表于《心理学:美学、创造力与艺术》上的一项对比研究提供了极为有力的经验证据。研究人员邀请了15位拥有超过五年经验的专业人类艺术家与15位无艺术背景的新手,分别撰写提示词输入DALL-E 3生成艺术作品。同时,利用ChatGPT生成多组提示词同样交由DALL-E 3绘图。经过299名独立参与者的双盲视觉评估发现,即使是操控同样的AI生成工具,由专业人类艺术家主导构思的AI辅助艺术作品,其在情感深度、原创性和意境上均显著优于AI程序完全自主生成的作品或新手生成的作品 。这意味着,真正决定创意上限的并非模型本身,而是人类深层的生活体验、潜意识的感知累积以及表达复杂情感的强烈冲动 。更为深层的眼动追踪和瞳孔参数神经科学研究也揭示,当欣赏者主观上相信一幅作品是由具有人类情感的同类创造时,其审美评价会显著更为积极,这凸显了创造力天然附带的同理心与社会连接属性 。正如神经学家指出的,由于AI的创意空间依旧在某种程度上“受困于其训练数据内”,在达到自我觉醒之前,只有人类能够凭借超越数据的真实生活交集,创作出具备真正震撼力的新范式 。
6.2 生产力悖论、创意趋同与认知萎缩
在商业环境与教育实践中,AI展现出了极为矛盾的双刃剑效应。2025年沃顿商学院“人类与AI联合研究项目(WHAIR)”举办的高级别研讨会上,多位顶尖学者分享了对AI塑造创意的最新量化研究 。创造力在学术上被严格定义为必须兼具“新颖性(Novelty)”与“实用性(Usefulness)”。实验数据表明,使用AI辅助工具确实能极大提升个体的生产力底线;在故事写作测试中,它能够“超级赋能(Supercharged)”那些原本缺乏创意的普通个体,使得整个组织的基线作品质量得到明显提升 。
然而,这引发了一个致命的副作用:创意的“趋同效应(Convergence)”与多样性坍塌。当绝大多数员工或研究者都开始依赖由同样预训练数据投喂的AI模型来激发灵感时,他们极易受到“锚定效应”的影响。人们倾向于围绕AI给出的稳妥解进行微调,导致宏观来看,整个社会的想法越来越相似,偏离原有路径的极端创新正在消亡 。
康涅狄格大学Neag教育学院James C. Kaufman教授的研究进一步证实了这种不平等。AI并没有拉平人类之间的创意差距,反而放大了那些本身就具有极强审视判断能力和专业知识的高手的优势 。更深层的隐患在于“认知萎缩(Cognitive Atrophy)”风险。MIT媒体实验室的一项研究警告,过度依赖这种即时、平滑的生成式黑盒,会剥夺人类进行深度反思、痛苦思辨及直觉跳跃的过程 。
在教育教学中,教育专家倡导必须基于TPACK(技术、教学与内容知识)框架来约束AI的使用。AI绝不能作为替代学生思考的捷径,而只能作为提供不同视角或挑战学生逻辑盲点的“脚手架(Scaffolding)” 。神经科学的证据显示,人类的决策不仅仅是AI那样的“贝叶斯计算”。人类能利用深层的潜意识特征和躯体标记功能实现高度感性的直觉跨越,从而打破僵化的逻辑锁链进行创新 。这种由于肉身特质而带来的偶尔不理性的转化冲动,恰恰是防范文明在完美算法的拟合中走向同质化枯竭的最终屏障 。
结论
在2026年这个历史节点上,关于AI是否具备生成“世界上本来不存在的内容”的能力,答案是毋庸置疑且震撼人心的。凭借着高维特征空间中无与伦比的插值计算和参数重组能力,AI正在化学材料空间、生命基因组学、蛋白质结构乃至极其严密的纯数学逻辑领域中,以前所未有的广度和速度生成全新的科学发现。在这些受限于严格物理定律或公理体系的状态空间内,AI打破了自然进化的物理时间限制,其展现出的“组合创造力”与“探索创造力”已经超越了人类的认知处理极限。
然而,通过严密的结构性剖析,AI能力边界的轮廓也变得空前清晰:
其一,在缺乏对物理法则底层世界模型的锚定时,基于自回归预测的大语言模型在现实因果推演中极其脆弱。逆转诅咒、多步逻辑的崩塌以及在医疗鉴别诊断中的系统性失败,证明了AI目前依然深陷于“拟合现象”而非“理解机制”的泥沼中。
其二,从数字虚拟向物理现实的跨越是其第二道天堑。为了真正适应充满噪音的物理环境法则,AI正在经历向世界模型和物理具身AI的痛苦演进,试图通过直接与原子的交互来积累默会知识,突破原有文本数据的天花板。
其三,在文化与精神的巅峰,AI依然难以企及。真正的“转化创造力”根植于人类的具身性、对生死痛苦的感知以及打破陈规的情感冲动之中。AI作为一个没有主体意识、缺乏社会性联结的工具,无法为其生成的文本与图像注入具有深远社会价值的“意义”。
展望未来,人工智能将在很长一段时间内作为人类史上最强大的认知引擎与探索外骨骼,彻底决定科学计算与创意生产的底线与效率。然而,去定义哪些新生成的知识对文明真正具有价值,去孕育打破旧范式所需的反叛精神,依然是由拥有血肉之躯和情感深度的全人类所不可推卸的核心特权。
版权属于:soarli
本文链接:https://blog.soarli.top/archives/970.html
转载时须注明出处及本声明。