自然语言结构分析和机器翻译是语言信息处理的关键技术和核心任务。自然语言是高度结构化和高 度歧义的。因此,面对高度歧义的自然语言,如何能够在多项式时间内有效地进行指数级结构化特征建 模是目前自然语言结构分析所面临的主要问题;而针对跨语言的多层次结构映射歧义,如何能够在多项 式时间内有效地进行基于多层次篇章语义结构映射的机器翻译建模是机器翻译研究进一步发展亟待解决 的问题。
本项目组多年来针对上述自然语言结构分析和统计机器翻译中的国际热点和前沿难题进行了攻关, 在句法语义结构分析、统计自然语言学习和统计机器翻译等问题上进行了系统研究,提出了一系列针对 语言结构化特征建模、半监督依存句法分析和统计机器翻译建模等关键技术和问题的解决方案,取得了创新性研究成果。主要创新点体现在:
在自然语言结构分析方面,针对结构化特征建模问题,提出了句法结构驱动的卷积核函数群,用以捕捉自然语言表达结构上的多样性、灵活性和歧义性,将语言学领域知识融入到统计机器学习算法设计中,有效解决了指数级自然语言结构化特征的多项式时间建模问题,显著提高了一系列自然语言处理任务的准确率,促进了统计自然语言学习等相关学科的研究进展;利用半监督统计机器学习理论和深度学习算法,建立了半监督依存句法分析的新框架,为解决半监督依存分析有效特征选取和指数级特征的多 项式时间计算这两个难题提供了核心技术,显著提高了依存句法分析的准确率。
在统计机器翻译研究方面,针对多层次篇章语义机构翻译建模问题,提出了同步树序列替换文法和 相应的基于森林树序列的句法翻译模型,在不改变时间复杂度和翻译速度的前提下,可学习到更优化的 翻译模型和搜索指数级增长的解空间,为同时解决句法翻译模型所面临的句法分析错误和跨语言句法非同构两大难题提供了有效的技术方案,显著提高了句法翻译模型的描述能力和翻译性能;较早开展了统 计语义和篇章机器翻译的研究,提出了篇章语义机器翻译模型,取得阶段性研究成果,抓住了学科发展前沿,为下一代机器翻译技术的研究进展做出了贡献。
近5年,本项目组在该项研究中获得NSFC 项目12项(包括重点项目1项、杰青项目1项和优青项目 1 项 ) , 发 表SCI 源期刊论文12篇,CCF A类国际会议论文15篇,CCF B类国际会议论文 20篇,英文专著2部,据Google Scholar统计论文引用将近3000次,在国内外有了很强的影响力 和话语权,处于领先地位。