首页 家电百科 实时讯息 常识

明物智能申请基于多尺度Transformer的视觉语言识别算法专利,提高视觉语音识别的准确性和鲁棒性

金融界2025年4月24日消息,国家知识产权局信息显示,宁波明物智能科技有限公司申请一项名为“一种高效的基于多尺度Transformer的密集预测视觉语言识别算法”的专利,公开号CN119811366A,申请日期为2024年11月。

专利摘要显示,本发明公开了一种高效的基于多尺度Transformer的密集预测视觉语音识别算法。该算法针对现有视觉语音识别技术在捕捉长程依赖关系和局部高频特征方面的不足,以及计算复杂度较高的问题,提出了一种创新的MTF‑TCN网络架构。通过结合Inception mixer结构的并行卷积、最大池化路径和自注意力路径,本发明有效学习视觉数据中的高频和低频信息,并通过频率斜坡结构平衡不同层上的频谱成分。此外,引入的稀疏注意力机制和时间卷积技术,降低了模型的计算复杂度,同时保持了对关键视觉特征的敏感性,以及为模型引入了局部连通性的归纳偏差,从而增强了对高局部性特征的提取能力,进一步优化了模型的性能和计算效率。本发明的有益效果包括提高了视觉语音识别的准确性和鲁棒性,同时降低了算法的计算成本,适用于各种噪声环境下的语音识别任务。

本文源自金融界

相关文章

科大讯飞业绩重回双位数增长通道,刘庆峰称坚定深耕底座大模型 2025-04-24

明物智能申请基于多尺度Transformer的视觉语言识别算法专利,提高视觉语音识别的准确性和鲁棒性 2025-04-24

OpenAI新模型GPT-4.1可靠性遭质疑:独立测试显示其对齐性下降 2025-04-24

重庆首趟图定中亚班列鸣笛启程 2025-04-21

“自动驾驶算法专家”“低空经济带头人”……都在等你|百万英才汇南粤 2025-04-19