主页 ›
学科分类 ›
电子科技论文
电子科技
语音增强
轻量级模型
Transformer
对抗训练
文章提出轻量级因果Transformer对抗网络(LCT-GAN),解决边缘设备语音增强的计算效率问题。核心创新包括:1)频时频(FTF)堆叠Transformer架构,通过参数共享和因果掩码实现全局依赖建模(计算量降低40%);2)对抗训练框架,结合多尺度/多周期判别器提升语音保真度。在Voicebank+Demand和DNS3数据集上,LCT-GAN仅用6%参数即匹配DeepFilterNet2性能(PESQ:3.07),较CCFNet+(Lite)减少9%参数和10%乘加运算(MACs)。该模型支持32ms低延迟部署,为边缘设备提供SotA级语音增强方案。
视听说话人提取
注意力机制
语音分离
深度学习
文章提出即插即用说话人间注意力模块(ISAM),利用屏幕上共现的面孔增强目标说话人语音提取。该模块通过自注意力层处理灵活数量的共现面孔,捕捉跨说话人语音活动线索,解决传统方法因仅依赖目标面孔导致的混淆错误。ISAM可无缝集成至AV-DPRNN和AV-TFGridNet等模型,在VoxCeleb2(高度重叠)和MISP(稀疏重叠)数据集上显著提升SI-SNRi指标,跨数据集评估验证其强泛化能力。
自杀风险检测
大语言模型
上下文学习
语音分析
文章提出基于大语言模型(LLM)的上下文学习方法,通过语音文本检测青少年自杀风险。针对SpeechWellness挑战赛中语音匿名化限制,利用DSPy框架构建提示模板,在Gemma2-9B模型上实现4样本上下文学习。该方法在180+提交中获第三名(准确率0.68),消融实验表明增加提示示例显著提升性能(p=0.003),且模型偏好高风险个体检测(假阴性率仅0.32)。研究证实LLM在心理健康评估中的有效性。
虚拟声学
听力亭设计
感知验证
声压级分析
文章研究三种实验室声学条件对音乐虚拟舞台感知的影响:消声室(最佳)、吸声不足听力亭(最差)及吸声达标听力亭(折中)。通过分析总声压级与虚拟声压级差异,发现消声室与达标听力亭的ΔL小于最小可觉差(JND≈1dB),而吸声不足听力亭ΔL超出JND导致虚拟声被感知过响。该结果为定制听力亭的声学验证提供方法论基础。
肌萎缩侧索硬化症
语音障碍
多模态分析
机器学习
文章提出基于多模态分析的ALS语音障碍客观评估方法。研究使用多伦多神经面部数据集(含11名ALS患者和11名健康对照),从句子重复任务中提取33个声学特征(基频、抖动、信噪比等)和运动学特征(唇颌运动速度、对称性等)。通过支持向量回归(SVR)、多层感知机(MLP)和极限梯度提升(XGB)模型预测临床言语障碍评分(5-25分)。结果表明:多模态SVR模型表现最佳(均方根误差RMSE=0.93),较单模态音频(RMSE=0.99)和视频(RMSE=1.30)模型误差降低24%。该方法为ALS延髓功能障碍提供低成本客观评估工具,支持家庭环境远程监测。
水下机器人
分布式AI
认知自主
ROS 2
文章提出了一种名为UROSA的分布式AI代理架构,旨在提升水下机器人在复杂环境中的认知自主能力。该架构通过将大型语言模型(LLM)与机器人操作系统(ROS 2)深度集成,实现了从感知到决策的全流程自主化。UROSA的核心创新包括动态角色适应的AI代理、基于向量数据库的检索增强生成(RAG)、实时功能扩展以及多层级安全机制。实验验证表明,UROSA在模拟和真实水下任务中展现出卓越的适应性和可靠性,显著优于传统规则驱动系统。该研究不仅推动了水下自主技术的发展,还为分布式认知机器人系统提供了可扩展的通用框架。
触觉传感器
仿生机器人
微型机器人
电容传感
文章介绍了一种名为CITRAS的仿生触觉天线传感器,灵感来源于美洲蟑螂的触角结构。该传感器采用多段式柔性层压设计,集成了高精度电容角度传感器,能够在严格的尺寸、重量和功率(SWAP)限制下实现精确的触觉感知。CITRAS总长73.7毫米,重量仅491毫克,功耗为32毫瓦,适合集成于昆虫级机器人平台。实验表明,该传感器在静态和动态弯曲条件下均表现出色,最大角度误差分别为0.79度和3.58度,并能准确预测物体距离、估算环境间隙宽度以及区分表面纹理。这一技术为微型机器人在复杂环境中的自主导航提供了关键感知能力。
机器人学习
视觉表示
数据编辑
文章提出了一种名为Masquerade的方法,通过编辑大规模的人类视频数据来缩小人类与机器人之间的视觉体现差距,从而提升机器人策略的学习效果。该方法通过估计3D手部姿态、修复人类手臂区域并叠加渲染的双臂机器人来生成“机器人化”的演示视频。实验表明,在三个具有挑战性的双手厨房任务中,Masquerade在未见过的场景中表现显著优于基线方法,成功率提高了5-6倍。研究还验证了机器人叠加和联合训练的重要性,并展示了性能随人类视频数据量的增加而提升的趋势。
无人机导航
安全强化学习
视觉语义模型
文章提出了一种基于安全强化学习(SafeRL)的无人机河流跟踪方法,通过视觉语义模型和动态优势估计技术解决复杂河流环境中的导航问题。该方法包含三个核心创新:边际增益优势估计(MGAE)用于处理非马尔可夫奖励结构,语义动态模型(SDM)实现高效的环境状态预测,以及约束演员动态估计器(CADE)架构整合安全约束与策略优化。实验表明,该方法在模拟河流环境中显著优于传统导航方法,尤其在安全性和任务完成率方面表现突出。
人形机器人
模仿学习
强化学习
行为克隆
文章提出了通用行为克隆(GBC)框架,旨在解决异构人形机器人全身模仿的挑战。GBC通过三个关键创新实现从人类动作到机器人动作的端到端学习:自适应数据管道利用可微分IK网络将运动捕捉数据自动重定向到任意人形机器人;新型DAgger-MMPPO算法结合MM-Transformer架构学习鲁棒的高保真模仿策略;整个框架基于Isaac Lab实现高效开源平台,支持通过简单配置脚本部署完整工作流。实验验证了GBC在多种异构人形机器人上的优异性能和动作迁移能力,为创建通用人形控制器提供了首个实用化统一解决方案。