计算机

DeepSeek-R1: 大语言模型强化学习

深度学习大语言模型神经网络文章介绍了DeepSeek团队的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练，无需监督微调(SFT)作为前置步骤，展现了强大的推理能力。然而，该模型在可读性和语言混合方面存在挑战。为此，DeepSeek团队进一步提出了DeepSeek-R1，通过引入多阶段训练和冷启动数据，显著提升了推理性能。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为支持研究社区，公布了开源DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的六个蒸馏模型(1.5B、7B、8B、14B、32B、70B)

深度学习在MRI重建中的应用

深度学习图像重建 MRI 深度学习(DL)最近已成为增强磁共振成像(MRI)的关键技术，而磁共振成像是诊断放射学中的关键工具。这篇综述论文全面概述了深度学习在MRI重建方面的最新进展。它重点介绍旨在提高图像质量、加速扫描和解决数据相关挑战的深度学习方法和架构。这些方法和架构包括端到端神经网络、预训练网络、生成模型和自监督方法。本文还讨论了深度学习在优化采集协议、增强对分布偏移的鲁棒性和解决细微偏差方面的作用。本文借鉴大量文献和实践见解，概述了深度学习在 MRI 重建中的当前成功之处、局限性和未来方向，同时强调了深度学习对临床成像实践产生重大影响的潜力。

鲁棒假设生成: 基于LLM自动化语言偏见的归纳逻辑编程

LLM 鲁棒性语言模型在开放环境中实现鲁棒的假设生成是人工智能认知的关键。文章提出了一种结合多智能体系统（基于大型语言模型LLM）与归纳逻辑编程（ILP）的新框架。系统中的LLM智能体能够直接从原始文本数据中自主定义结构化符号词汇（谓词）和关系模板（即“语言偏见”）。这种传统上依赖专家定义的ILP瓶颈问题——符号基础的自动化构建，随后引导文本转化为ILP求解器可用的事实，从而归纳出可解释的规则。该方法克服了传统ILP对预定义符号结构的依赖以及纯LLM方法的噪声敏感性。在多样化挑战性场景下的实验验证了其优越性能，为自动化、可解释且可验证的假设生成开辟了新路径。

基于可解释记忆增强的上下文学习预测初创企业成功

上下文学习记忆增强大语言模型风险投资可解释AI 文章提出了一种基于记忆增强大语言模型的透明化初创企业投资决策框架。该方法通过自然语言策略的显式嵌入，结合轻量级上下文学习循环，实现了无需梯度优化的策略迭代优化。核心创新包括：1) 可人工审核的自然语言决策策略；2) 并行/串行混合的上下文学习机制；3) 符号化记忆增强架构。实验表明，优化策略在极端不平衡数据（40成功/2000失败）上实现20倍于随机基数的精度提升，显著超越顶级风投机构7.1倍的预测能力。

基于图扩散网络的智能体行为学习

智能体建模图神经网络扩散模型可微分模拟文章提出图扩散网络（GDN）框架，通过结合图神经网络与扩散模型，实现了对任意基于智能体的模型（ABM）的可微分替代。该方法直接从ABM生成数据中学习个体智能体的随机行为，保留ABM的分散式动态特性。在Schelling隔离模型和捕食者-猎物生态系统上的实验表明，GDN能精确复现个体层面的状态转移分布，并准确预测训练范围之外的系统级涌现动态。

Dash：面向工业AI应用的低代码开发平台

低代码开发工业AI 边缘计算分布式系统文章提出Dash低代码AI平台，针对工业场景中高时效性AI应用开发需求，创新性地采用两阶段开发范式：AI专家创建可定制模板，部署专家实例化模板。平台结合高性能数据骨干网Cascade实现毫秒级响应，通过加权距离算法优化模型选择，支持类型检查确保模块兼容性。实验表明，Dash生成的缺陷检测流水线端到端延迟低于400毫秒，满足工业检测实时性要求。

面向分层强化学习智能体的多分辨率技能发现

分层强化学习技能发现多分辨率控制条件变分自编码器文章提出多分辨率技能发现（MRSD）框架，解决现有分层强化学习方法仅支持单分辨率技能的局限。该框架通过并行训练多个条件变分自编码器（CVAE），在DeepMind Control Suite任务中实现：1）学习不同时间尺度的技能编码器（8/16/32/64步长）；2）动态技能交织机制，通过管理器策略头自适应选择技能；3）探索性奖励驱动无监督技能发现。实验表明MRSD在收敛速度和最终性能上均超越Director等基线方法，消融研究验证了技能交织机制的关键作用。

无插电AI素养：小学基础AI教育结构化方法

AI教育非插电学习小学课程数学整合文章提出结构化非插电教学路径，通过四大模块（AI导论、分类原理、分类表示、评估反思）培养小学生AI素养。核心创新包括：1）以数学概念（集合论、决策树、数据表示）为桥梁，强化AI与课程衔接；2）设计现实场景活动（如怪物分类、AI海洋），破除AI自主性迷思；3）实证评估31名五年级学生，显示术语理解率提升73.91%、逻辑推理改善56.52%，且83.33%学生反馈积极。材料开源支持复现。

多语言鸿沟与全球AI安全挑战

多语言模型 AI安全数据稀缺文章揭示了当前AI领域存在的显著语言鸿沟：全球7,000多种语言中，主流大语言模型仅支持不足2%。这种差距源于训练数据倾斜（英语占HuggingFace数据集的86%）、计算资源分配不均（非洲地区LLM评估成本是北美的3倍）以及文化偏见嵌入（西方视角占比达84.9%）。研究指出，语言差异导致安全风险增加（低资源语言有害生成率提升78-89%），并通过Aya项目展示了解决方案——通过101种语言的人类标注数据集、多阶段强化学习（RLHF）及模型融合技术，使安全拒绝率提升82%。文章建议政策制定者支持多语言数据集建设（包括濒危语言）、增强模型透明度披露、优化计算资源分配，以构建包容性AI安全体系。

MME-Reasoning：多模态大语言模型的逻辑推理基准

多模态推理逻辑推理基准测试评估框架文章提出了MME-Reasoning基准，这是首个全面评估多模态大语言模型（MLLM）逻辑推理能力的测试框架。该基准系统覆盖归纳、演绎和溯因三种经典推理类型，包含1,188道经过严格筛选的跨模态问题。通过解耦感知能力与领域知识依赖，MME-Reasoning聚焦核心推理过程，引入多选题、自由问答和规则类（如数独）三种评估范式。实验表明当前最先进的MLLM（如Gemini-2.5-Pro-Thinking）整体准确率仅60.19%，在溯因推理任务上存在平均9.81分的性能鸿沟。研究进一步揭示了「思考模式」对推理链延长的正向效应，以及基于规则强化学习方法的局限性。基准代码与数据集已在HuggingFace开源。