软件工程

双代理防御框架：CoT代码生成的后门安全

后门防御链式推理代码生成双代理系统文章提出GUARD框架，解决链式推理（CoT）代码生成模型的后门攻击威胁。创新点包括：1）GUARD-Judge代理通过逻辑正确性验证与语法异常检测（如Markdown粗体触发标记）识别恶意CoT步骤；2）GUARD-Repair代理基于BM25检索安全样本，引导GPT-3.5重构安全推理路径。在HumanEval/OpenEval数据集上，GUARD将SABER攻击成功率（ASR）从72.73%降至19.05%，同时BLEU指标提升12.7%，显著优于ONION、DeCE等基线方法。

ROS 2异步Rust应用的实时性能分析与优化

ROS 2 Rust 实时系统响应时间分析文章针对Rust语言在ROS 2机器人系统中的实时执行能力展开研究，重点分析了R2R异步绑定库的执行模型。通过比较Rust异步运行时（FUTURES/Tokio）与C++ ROS执行器的差异，提出了基于线程优先级和回调映射的实时优化架构。实验表明，采用FUTURES本地执行器结合SCHED_FIFO调度的方案（futures-rt）在合成基准测试中实现了与理论响应时间分析（RTA）一致的结果，99%分位延迟低于0.8ms。在自动驾驶案例中，该方案成功维持了多节点处理链的确定性时序，验证了其在复杂场景下的实用性。研究为Rust ROS应用的响应时间分析建立了理论基础，并开源了实验配置与跟踪工具。

CXXCrafter: 基于LLM的C/C++开源软件自动构建代理

LLM代理软件构建 C/C++ 自动化文章提出CXXCrafter——首个基于LLM代理的C/C++开源软件自动化构建系统。通过实证研究发现主流C/C++项目平均需解决5个构建错误，主要挑战包括依赖管理复杂性（占比74%）、构建系统多样性（20+种工具链）及错误诊断困难。CXXCrafter设计三模块协同框架：解析器自动提取依赖和文档，生成器动态生成/修正Dockerfile，执行器通过容器化环境实现错误反馈循环。在752个项目的评估中，系统达成78%构建成功率，较启发式方法（39%）和纯LLM（34%）显著提升，单次构建成本仅0.41美元。

AlignMind: 基于心理理论和多智能体架构的需求细化系统

需求工程心理理论多智能体系统基础模型文章提出AlignMind系统，通过心理理论(ToM)能力和多智能体架构解决需求细化挑战。该系统采用Router、Requirement Refiner、Workflow Generator和Workflow Refiner四类智能体，结合主题分解、专业度评估等ToM模块，通过多轮对话迭代澄清利益相关者意图。在150个场景的评估中，AlignMind的需求词汇丰富度达基线8倍，生成的需求规范和工作流在FM评审中得分显著更高（中位数10vs9.08）。尽管API调用量增加10.6倍，token消耗增加30倍，但其在需求捕获准确性和完整性上的突破为意图优先开发环境奠定基础。

SWE-Judge: 软件工件的集成评估框架

软件工程大语言模型自动评估文章提出SWE-Judge，首个基于LLM集成评判的软件工件评估指标，用于解决代码生成、程序修复和代码摘要等任务中自动评估与人类判断的差距。该方法创新性地设计五种评估策略（直接评估、反思评估、等价性评估、测试生成评估和参考分析评估），通过动态团队选择机制组合最优策略子集，集成生成最终正确性分数。在六大数据集（CoNaLa、Card2Code等）上的实验表明，SWE-Judge与人类评估的相关性提升5.9%-183.8%，在代码生成和程序修复任务中达到接近人类间评估的一致性水平。

CA-Buddy：结构化云架构设计支持系统

云架构设计大语言模型人机交互文章提出CloudArchitectBuddy（CA-Buddy），一种系统驱动的云架构设计支持工具，通过结构化状态管理和引导决策辅助两大机制提升设计效率。该系统将设计信息组织为UserState（需求演化）和ArchitectureState（架构提案）双模型，通过四步工作流（提案生成、架构总结、问题检查、需求精炼）实现系统驱动的迭代设计。16名行业从业者的实验表明，CA-Buddy与ChatGPT设计质量相当，但在易用性（7.93 vs 6.75）和推荐意愿（7.62 vs 7.12）上显著领先。用户反馈揭示其核心优势在于架构可视化（90%认可）和需求缺口识别（75%），同时提出需整合自由文本交互以平衡结构化与灵活性。

SV-TrustEval-C：评估大型语言模型在源代码漏洞分析中的结构与语义推理能力

源代码漏洞分析大语言模型基准测试文章介绍了SV-TrustEval-C基准测试，用于评估大型语言模型（LLMs）在C语言源代码漏洞分析中的结构推理和语义推理能力。该基准通过结构导向变体生成器创建数据流/控制流复杂度递增的代码变体，设计五类任务评估模型识别代码元素关系（结构推理）和逻辑一致性（语义推理）的能力。实验表明，当前LLMs主要依赖模式匹配而非逻辑推理，在复杂代码关系理解（平均准确率<32%）和漏洞分析一致性（<50%）方面表现不佳。该研究为提升LLMs在安全关键场景的可信度提供了新方向。

SWE-rebench：软件工程代理的任务收集与去污染评估

软件工程自动化评估大语言模型文章提出了一种自动化流程SWE-rebench，用于从GitHub仓库持续收集真实世界的交互式软件工程任务。该流程包含四阶段：任务收集、安装配置、执行验证和质量评估，成功构建了包含21,336个Python任务的公共数据集。基于此，建立了无污染的SWE-rebench基准测试，采用标准化框架评估LLM代理性能。实验表明，静态基准存在污染导致的性能虚高问题，而DeepSeek-V3在开源模型中表现最优。

Python工作流定义：计算材料设计的工作流交换格式

工作流管理材料计算互操作性文章提出Python工作流定义（PWD），用于在基于Python的工作流管理系统（AiiDA、jobflow和pviron）之间交换工作流。PWD由三部分组成：conda环境文件、Python模块和JSON工作流图。该格式支持有向无环图（DAG）工作流，实现了工作流的导出和导入，提升计算材料科学领域工作流的互操作性和可重复性。

LLM生成代码的能效评估

能效评估大语言模型代码生成绿色计算文章系统评估了20个主流大语言模型（LLM）生成代码的能效表现。研究基于LeetCode平台的878个编程问题，对比LLM生成的代码与人类规范解决方案在能耗、运行时间和内存占用等指标上的差异。结果表明：1) 人类解决方案的能效平均比最佳LLM（DeepSeek-v3）高17%；2) GPT-4o与Claude-3.5-Sonnet位列能效前三，而Grok-2/Gemini-1.5-Pro的能效不足人类方案的50%；3) 在动态规划等算法类别中，LLM代码能耗可达人类方案的450倍。研究提出了包含能耗、经济成本的多维度评估框架，揭示了LLM在算法优化上的显著不足。