本发明提供一种声源分离方法及装置,所述方法包括:获取视频帧图像中的视觉引导特征;将第一混叠多声源声谱图和所述视觉引导特征输入训练好的预测编码循环卷积神经网络模型,获取第一掩膜图;根据所述第一混叠多声源声谱图和所述第一掩膜图,获取分离的声音信号。本发明通过将视觉引导特征和混叠多声源声谱图输入训练好的预测编码循环卷积神经网络模型预测各声音分量的掩膜图,然后利用掩膜图和混叠多声源声谱图获取分离的声音信号,实现声谱图和视觉引导特征在同一网络模型中进行处理,网络模型规模小,且视觉特征和声音特征能够渐进式的有效融合,提高了声源分离的精度。


