明物智能申请基于多尺度Transformer的视觉语言识别算法专利，提高视觉语音识别的准确性和鲁棒性

0次浏览发布时间：2025-04-24 10:14:00

金融界2025年4月24日消息，国家知识产权局信息显示，宁波明物智能科技有限公司申请一项名为“一种高效的基于多尺度Transformer的密集预测视觉语言识别算法”的专利，公开号CN119811366A，申请日期为2024年11月。

专利摘要显示，本发明公开了一种高效的基于多尺度Transformer的密集预测视觉语音识别算法。该算法针对现有视觉语音识别技术在捕捉长程依赖关系和局部高频特征方面的不足，以及计算复杂度较高的问题，提出了一种创新的MTF‑TCN网络架构。通过结合Inception mixer结构的并行卷积、最大池化路径和自注意力路径，本发明有效学习视觉数据中的高频和低频信息，并通过频率斜坡结构平衡不同层上的频谱成分。此外，引入的稀疏注意力机制和时间卷积技术，降低了模型的计算复杂度，同时保持了对关键视觉特征的敏感性，以及为模型引入了局部连通性的归纳偏差，从而增强了对高局部性特征的提取能力，进一步优化了模型的性能和计算效率。本发明的有益效果包括提高了视觉语音识别的准确性和鲁棒性，同时降低了算法的计算成本，适用于各种噪声环境下的语音识别任务。

本文源自金融界

本文分类：实时讯息
本文标签：视觉算法语音识别卷积尺度复杂度高效模型
浏览次数：0 次浏览
发布日期：2025-04-24 10:14:00
本文链接：https://m.qrbk.net/news/dVEp0vdEGr.html

栏目导航

明物智能申请基于多尺度Transformer的视觉语言识别算法专利，提高视觉语音识别的准确性和鲁棒性

人民日报 | 金台瞰甘头条 | 甘肃永登县：玫乡深耕“田字格”，治理花开产业兴 2025-06-08

DeepSeek，新消息！ 2025-05-29

这家广州科技企业“多条腿”布局数智化 10秒生成高自然度数字人 2025-05-19

驭“数”前行向“新”而生——宁夏数字经济智绘发展新图景 2025-05-16

联想拯救者春季上新：硬核性能解锁电竞+创作体验新维度 2025-05-12

栏目导航

明物智能申请基于多尺度Transformer的视觉语言识别算法专利，提高视觉语音识别的准确性和鲁棒性

人民日报 | 金台瞰甘头条 | 甘肃永登县：玫乡深耕“田字格”，治理花开产业兴 2025-06-08

DeepSeek，新消息！ 2025-05-29

这家广州科技企业“多条腿”布局数智化 10秒生成高自然度数字人 2025-05-19

驭“数”前行 向“新”而生——宁夏数字经济智绘发展新图景 2025-05-16

联想拯救者春季上新：硬核性能解锁电竞+创作体验新维度 2025-05-12

驭“数”前行向“新”而生——宁夏数字经济智绘发展新图景 2025-05-16