在互联网大数据时代,互联网信息呈爆炸式增长,其中蕴含着具有重要价值的命名实体和事件等信息,而这 些信息多包含在非结构化自由文本中,例如临床电子病历、标书文件、药品说明书、经济金融证券数据等,通过 现有技术自动抽取非结构化自由文本中的有用信息,以此实现自由文本的结构化,具有巨大商业价值。
项目融合规则与深度学习方法,结合实验室机器阅读理解、小样本强化学习等方面的相关研究成果,开发了 智能信息抽取工具,该工具可以应用于互联网泛文本结构化领域。
项目开发的智能信息抽取工具能长期稳定运行,目前已稳定运行两年以上,系统可以针对不同领域的自由文 本数据进行信息抽取结构化,并将结构化后的各字段信息通过可视化界面进行展示,用户界面满足现场的应用要求。