本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
欢迎访问我们网站
江苏淮海技术产权交易中心是由江苏淮海科技城、徐州市科技局和中国矿业大学国家大学科技园联合出资设立的,专业从事技术成果转化、转移与技术产权交易的服务机构。
扫描访问手机版