题目:基于主题模型的科技文献检索系统的研究与实现

2020-12-11 05:40发布

  摘要

近年来,随着互联网的飞速发展,各类科技文献数据摆脱了传统媒体的限制,以电子文档的形式在网络上广泛传播。但是,针对当前海量的数字文献资源,如何高效并准确地查找用户所需要的有价值的信息是当前科技文献检索系统所面临的一个重大挑战。本文以传统的语言模型检索方式为基础,结合自己提出的面向科技文献数据类型的主题模型,为科技文献数据的主题抽取和语义检索等问题的解决带来了新的可行方案。论文的主要工作如下:首先,本文分析了现有主题模型的缺陷和不足,提出了一种基于N-gram单词空间的“作者—会议”主题模型以及其相应的增量训练方法。该模型将N-gram引入到主题模型的单词空间中以增强模型的表达能力;同时,模型的增量训练方法可以有效地降低训练的时间复杂度,使得模型可以应用于不断更新的文本数据流的主题抽取问题,满足检索系统对实时性要求高的需求。实验表明,本文提出的基于N-gram的增量主题模型能提高模型对不可见数据的预测能力,并且大大提高模型训练的效率。其次,本文针对传统检索方法缺少语义信息这一问题,结合文中提出的新主题模型,提出了一种融合了经典的查询似然度语言模型和新主题模型的科技文献数据的语义检索算法,并给出了一种基于新主题模型的科技文献关联方法。与多个检索方法相对比的实验表明,本文提出的方法较大地提高了检索系统的查准率和平均准确率,有一定的实用价值。最后,本文基于上面介绍的模型和算法,结合描述非结构化数据的四面体模型,设计并实现了一个基于主题模型的科技文献数据检索系统。整个系统采用分层的架构模式,使用Map-Reduce编程模型、开源的索引框架Lucene以及开源数据库MySQL等辅助实现。经过系统在实际数据上面的实验测试,评价结果表明了本文提出的方法在科技文献语义挖掘和信息检索领域有一定的理论价值和现实可行性。