张倩-开题报告;

北京邮电大学

硕士研究生学位论文开题报告

学号: 2012140318

姓名: 张倩

学院: 计算机学院

专业(领域): 计算机技术

研究方向: 下一代电信运营支撑系统与智能信息处理

导师姓名: 杨娟

攻读学位: 硕士

2013年 12月日

北京邮电大学硕士研究生学位论文开题报告

9 -

论文题目

基于信息融合的科研数据分析系统的研究与实现

选题来源

企、事业单位委托项目

论文类型

应用研究

开题日期

2013.12

涉密

否

一、立题依据（包括研究目的、意义、国内外研究现状和发展趋势，需结合科学研究发展趋势来论述科学意义；或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。附主要参考文献目录）（不少于800字）

研究目的

“产品、自然资源或者劳动力不再是最基本的经济资源，取而代之的是知识(knowledg)。”进入21世纪，人类社会快速发展，知识社会的雏形已经初见端倪。随着知识成为经济资源的核心，对知识的管理也变得迫在眉睫。计算机相关资源变得日益廉价，随之而来的是信息越来越多，甚至呈现出“井喷”的态势。在如此庞大的信息集合面前，人们不单独关注于某一信息本身，而是急迫地寻求一种方法，能够将这些不同的知识集成到一起。

对于科研数据来说，如今呈现出了很多特征：更新周期缩短、数量庞大、文献的类型多样、载体数字化、语种多样化、内容交叉、信息密度大。科研数据中所含的信息类型多样，既有结构性数据，也有非结构性文本和公式，如何对这些数据进行分析，为用户提供服务成为科技信息服务业急需思考和解决的问题。

研究意义

单纯的文献数据的中的知识已经不能满足用户日益增长的查询需求，用户不但需要文献数据库所提供的专业的研究前沿的专业知识，更需要广泛分布于互联网上的研究领域的背景知识，来帮助使用者理解当今前沿知识的来龙去脉。但这些基本的背景知识一般作者当作已知信息而不予介绍，如果能融合相关公开信息，用户将对文献有更深的理解。本课题通过信息融合技术，可以帮助用户实现这个需求。融合了多种来源的信息，可以为用户提供更加全面、丰富、有深度的科研信息分析，在全局把控，面向机构的统计分析中优势明显。

国内外研究现状和发展趋势

多源信息融合（简称为信息融合）是指组合和合并多个来源的信息或数据以便形成一个统一结果的技术。它起源于军事领域中的多传感器综合应用，往往又叫多传感器数据融合（或数据融合），是对人或动物利用各种感官来获取信息并通过大脑综合分析来认识客观世界的一种功能模拟。随着研究的进展，信息融合领域中的“传感器”泛指各种信息来源，除了电子传感器，还包括数据库、网络系统等等。借助机器系统实现信息融合，既能有效地提高系统性能，也能扩展人的认识能力、辅助人类决策、提高解决问题的效率。。近几年来，随着信息科技的发展，国内外掀起了信息融合技术研究的新热潮。

目前信息融合的研究工作主要集中于两个方面：信息检索（IR）数据融合和Web文档知识融合。前者通常是指把多个IR分系统针对同一个查询返回的多个已排序的结果文档列表，合并成单一的列表后呈现给用户。而后者主要利用语义本体和自然语言处理技术来分析多个文档的内容，通过消除知识的冗余、冲突和不完整性，为用户提供具有一致性的知识。多文档知识融合包括半结构化文本（主要指XML格式）和非结构化文本（指HTML格式或其它文本）的知识融合。另外，Web信息融合还包括交叉媒体（如文本与图像）的融合和多语言信息融合。

国内目前成熟的科研信息服务系统，主要以CNKI和万方为代表。它们有一套较为成熟的科研信息分析系统，可以做到数据查询、统计、学科趋势分析、学术圈分析等功能。但这些系统仅仅对自己的数据库中的数据进行分析，即单一数据源的分析，无法将互联网中其他有用的信息融合起来，满足用户更深层次的需求。

主要参考文献

Gruber T R. A translation approach to portable ontologies. Knowledge Acquisition, 1993, 5(2):199~220.

Gruber T R. Towards principles for the design of ontologies used for knowledge sharing. International Journal of Human Computer Studies,1995,907~928.

Euzenat J.Shvaiko P. ontology matching[M]. New York: Springer Berlin Heidelberg,2007.

Fensel D, Lausen H, Polleres A, et al. Enabling semantic web service: the web service modeling ontology[M]. Heidelberg:Springer,2007.

Eric G. Little Galina L. Rogova. Designing ontologies for higher level fusion[J]. Information Fusion 2009 10:70-82.

Corona I, Giacinto G, Mazzariello C, et al. Information fusion for computer security: State of the art and open issues[J]. Information Fusion,2009,10(4):274-284.

Kokar M M, Matheus C J, Baclawski K. Ontology-based situation awareness[J]. Information Fusion,2009.10(1):83-98.

M. Zhu Z. Gao and Z. and Huang "Ontology Learning from Noisy Linked Data " inProceedings of the 10th International Semantic Web Conference (ISWC2011) Bonn Germany 2011.

S. Wang Y. Zeng and N. Zhong "Ontology Extraction and Integration from Semi-structured Data " in Proceedings of the 2010 International Conference on Active Media Technology (AMT 2010) Lecture Notes in Computer Science 2011.

Y. Ma Y. Zeng Xu Ren and N. Zhong "User Interest Modeling Based on Multi-source Personal Information Fusion and Semantic Reasoning " in Proceedings of the 2010 International Conference on Active Media Technology (AMT 2010) Lecture Notes in Computer Science 2011.

宋峻峰,张维明,肖卫东,唐九阳. 基于本体的信息检索模型研究[J]. 南京大学学报(自然科学版),2005,02:189-197.

韩崇昭, 朱洪艳, 段战胜, 等. 多源信息融合（第2版）[M]. 北京：清华大学出版社,2010.

袁燕妮. 基于本体的电信产品信息融合服务框架研究与实践[D]. 北京:北京邮电大学计算机学院 2008.

熊燕. 基于客户本体的电信企业客户资料融合的研究与实践[D]. 北京:北京邮电大学计算机学院 2008.

娄双双. 基于本体的信息融合机制研究与实践[D]. 北京:北京邮电大学计算机学院 2008.

洪迎春. 基于本体的分布式并行检索技术研究[D].中国海洋大学,2009.

杨峰. 本体映射关键技术研究[D].吉林大学,2011.

陈科文,张祖平,龙军. 多源信息融合关键问题、研究进展与新动向[J]. 计算机科学,2013,08:6-13.

王功辉,黄奇,秦超,杨呈中. 本体构建中的语义分析方法研究[J]. 图书情报工作,2013,07:106-111.

邓三鸿,王昊,苏新宁. 基于CSSCI本体的学术期刊关联分析[J]. 现代图书情报技术,2011,03:30-37.

韩静娴,周志峰,王昊. 基于CSSCI本体的知识服务模式研究[J]. 图书情报工作,2013,01:102-107.

二、研究内容和目标（说明课题的具体研究内容，研究目标和效果，以及拟解决的关键科学问题。此部分为重点阐述内容）（不少于2500字）

基于信息融合的科研数据分析系统的研究与实现这个课题主要是为了解决当前科研信息多样化、复杂化，不便于进行统计分析的问题而提出的。它采用信息融合理念，融合多种多样的科研信息，以本体构建技术作为底层技术，使用文本挖掘技术，从多个信息源中抽取实体对象常规属性和对象间的关系，组成数据表格。实现一个跨多个数据源的科研文献分析系统，向用户提供更广泛高效的科研信息服务

课题主要研究内容

1、获取科研信息与文本预处理；

预处理阶段包括重名消歧、实体识别、噪音过滤等。数据的多源性和数据收集的非规范性导致数据中实体不具有统一的唯一标识，而实体解析就是要解决普遍存在的实体标识唯一性问题。目前，实体解析的研究主要关注两个方面的问题：实体同名歧义和实体别名识别。前者是指许多不同的实体拥有完全相同的名称，例如在中国有超过29万人叫“张伟”，后者是指同一个实体常常会以多种形式存在于不同数据源中(即别名)，如“北京邮电大学”常常被简称为“bupt”。同时，实体解析也是信息检索的一个重要问题。随着大数据时代的到来，从海量结构/半结构/非结构化数据中快速准确地搜索到各种实体(例如人名、组织机构、产品)及其相关信息成为很多应用的关键，包括信息检索、推荐系统和社交网络等。

2、完成多个来源科研信息的融合，

本课题需要把多个来源的科研信息，例如文献数据、专利数据、作者个人信息、公告栏数据等，通过本体的方法融合在一起。

为了完成信息融合功能本系统首先使用实体识别算法对海量文本中的各个实体名称进行识别分析，对他们的基本信息进行统计并加以归纳，然后运用分类算法对各个实体进行分类，对每一类实体使用模糊匹配和重名消歧算法来将名称相同的实体信息予以统一，去除冗余并实现信息互补，采用关联计算算法来对经过处理后的信息进行融合，以实现文献数据库内的数据和外部互联网中的数据进行信息融合。

目前为止，本体的构建方法有很多种，包括骨架法，IDEF5法，TOVE法以及基于形式概念分析的构建方法等。这些方法尽管面向对象不同、名称不同，但其核心及主要步骤都离不开以下几个部分：术语选择、抽取本体概念、语义关系抽取、分类体系构建、本体构建、本体修剪及评价，其中本体概念的选取和语义关系的抽取是本体构建过程中的重点也是难点。

3、基于对象关系的信息检索与关联分析

将获取的信息中的潜在目标对象视为分析单元，采用网络科学的相关理论技术，分析目标对象间的关系及实体对象的关联关系网络。系统实现目标对象的检索平台，除了可以满足对象的基本信息的检索，也能够通过指定对象，查找对象间的关系。由于单一数据的局限性，用户仅从单一数据源中发现关于某目标的信息是有限的，一个数据源仅仅只能反映某一个目标的某一方面的属性，并不能给用户全局客观的描述；而数据融合技术恰恰解决了这个问题，通过融合多个数据源的数据，可以从不同的侧面获取某个对象的多方面的信息，并且通过多个数据源数据的综合，还可以发现一些这些数据源中都没有的信息，获取对象的一些隐式关联，除此之外，若为不同的数据源设定可信度等级，则还可以校验纠正数据源中的错误信息。

4、在融合的基础上，对科研信息进行数据挖掘与分析，提取作者合作关系网，进行复杂网络的基本分析。并进一步将这些分析方法应用在异质网络分析中。

科技文献网络是从科技文献中抽取的多种网络，包括作者合作网、文献共同引用网等。这些网络从不同角度反映了文献数据中存在的多种关系。随着对文献数据研究的不断深入和研究方向的不断扩展，文献分析中出现愈来愈多的研究对象和研究目标，其研究方式也不断的多样化，传统的文献计量学分析着重于数据的量化指标，数据间的复杂关系往往被隐藏起来，因此已远不能满足对文献数据挖掘的需求。而对文献数据关系的分析，使用复杂网络分析方式则再好不过。从文献数据构建各种类型的网络，从中透视个人、机构乃至领域之间的关系和相互影响，已经成为分析文献网络的一种行之有效的方法。

课题研究目标和效果

本课题主要采用针对科研数据的信息整合方法。以分析科研信息为目标，采用本体作为数据模型，使用文本挖掘技术，从多个信息源中抽取实体对象常规属性和对象间的关系，组成数据表格。实现一个跨多个数据源的科研文献分析系统，向用户提供更广泛高效的科研信息服务。

本课题在文献数据分析领域，除了在文献数据的范围内进行信息融合之外，还可以针对互联网上海量的背景知识数据进行融合。在文献数据分析的基础上，将引文扩展与信息融合相结合，根据文献数据库中已有的信息来发现外界更多的信息。

　例如通过对论文中引文信息的扩展，获取到当前数据库中所没有收录的诸多中文及外文论文，对这些文章的信息进行解析，获取相关的作者及发表信息，结合信息融合技术，可以找到这些引文的作者中有哪些是在数据库中存在的而哪些是陌生的。对于在万方中发表过文章的作者可以将该引文也收录入该作者的个人信息中，从而得到关于该作者的一个更全面的学术研究情况；对于完全陌生的用户，可以再对大量引文分析的基础上获取有关该作者的合作关系网络，进而进一步发现该作者在其所研究领域的地位及影响力。基于文献信息融合，还可以构建出该用户的研究热点随时间变化的情况，发掘用户的合作关系网络并继而发现该用户在该学科领域内影响力以及创新力的发展趋势。这样透过引文扩展分析和信息融合技术，在现有数据库的基础上发现全国乃至全世界的学术合作发展情况。

拟解决的关键科学问题

1．将不同种类和来源的数据映射成本体

由于语义Web的分布式特征，导致出现了领域本体的重复定义。除了信息和数据本身的不一致性，这些覆盖了重复领域的本体之间也存在着语义异构的问题。因此，发现这些本体间的语义关系就显得尤为重要。解决本体异构问题的关键在于如何发现本体中各个组成部分之间的相互关系，即：本体映射。本体映射是指在两个本体之间存在着语义级的概念关联，将这样的两个本体作为输入，然后为这两个本体中的各种元素(概念、关系、实例)建立相应的语义关系的过程。

本体映射的一般过程为：首先是特征提取。本体定义中有一些特征是用来描述特定实体的。在映射过程中，首先将这些本体特征提取出来，为下面的步骤提供必要的信息。其次，本体映射是在预映射本体的搜索空间中进行。然后进行相似度计算，对于同一实体对，经相似度计算后会获得多个相似度值。这些相似度值反映了它们多侧面的相似程度。然后。是对相似度值的解释和说明。对以上步骤进行迭代，对实体对特征的相似度进行全面度量。最后，在获取了全部实体对的语义关系后，进行映射发现，提取出最终的映射结果。

2. 多个本体模型间融合

确定一个客体和一个主体，对客体的模型结构进行类和属性的扫描，凡是主体中没有的在主体中进行创建，并根据原先客体中的关系在主体中进行还原，将客体中的实例导入主体中相应的类的下边，之后对主体进行整体的同一性检测，将描述统一对象的不同实例进行合并，表示范围相同的属性进行合并。

3．优化非关系型数据库，提供高效查询服务

NoSQL数据库是非关系型数据存储的广义定义，它打破了长久以来关系型数据库与ACID理论大一统的局面。NoSQL数据存储不需要固定的表结构，通常也不存在连接操作。NoSQL数据库不使用传统的关系数据库模型，而是使用如key-value存储、文档型的、列存储、图型数据库、xml 等方式存储数据模型。

目前的NoSQL数据库还难以与关系型数据库一争高下，但它却可以对关系数据库在性能和扩展性上进行弥补，所以我们可以把NoSQL和关系数据库进行结合使用，各取所长，需要使用关系特性的时候我们使用关系数据库，需要使用NoSQL特性的时候我们使用NoSQL数据库，各得其所。

三、研究方案设计及可行性分析（包括：研究方法，技术路线，理论分析、计算、实验方法和步骤及其可行性等）（不少于800字）

研究方案设计

科研数据分析系统由数据持久层、核心功能层、系统逻辑层和应用层构成，如图1。

数据持久层以NoSql数据库作为主要数据库，支持本体模型的持久化存储；以关系型数据库为辅，主要作为原始科研信息变成科研本体的过渡性存储。核心功能层包括了本系统需要使用的核心算法，如聚类、分类、模糊匹配、社团发现、重名消歧、pagerank等。系统逻辑层包含三部分科研信息融合，科研信息分析和异质网络分析。科研信息融合是其它两部分的基础，采用本体构建技术实现多来源、不同结构的科研信息融合，并存储在Nosql数据库中；科研信息分析可以对融合后的科研信息进行数据统计和数据挖掘；异质网络分析是在信息分析的基础上，加入异构网络分析概念，用来描述多种关系和多种实体。应用层为用户提供多种服务，如数据统计、科研信息挖掘、学科热点发现和多源信息融合的知识服务。

图1 系统架构图

在根据原始数据转换的得到的数据模型的基础上，可以进行多种操作，其中包括了基于对象的数据结构分析，多个数据源中可能包含了对某一对象的不同方面的描述，在数据融合的过程中，系统会对不同数据源中的不同对象进行同一性检测，将判定为同一个目标的对象的数据碎片进行融合，得到一个较完整的关于某一个对象的描述。通过查询语句，例如sparql，对数据模型进行查询，就可以得到关于某一个对象的所有的数据信息的描述和与他有关的关系信息的描述。通过对关系信息的提取和预处理，就能通过可视化模块将其展示为关系网，并进行与复杂网络有关的一系列数据挖掘操作，最终得到用户想要的结果。

可行性分析

信息融合已成为当下计算机领域的热门研究话题，当下已经有了较为成熟的研究路线和实现方法。本体已经广泛用于人工智能、语义网、系统工程、软件工程、生物医学和图书馆科学等领域作为世界或部分世界的知识表示。Cartik Kothari, Joseph Qualls and David Russomanno 提出了一种基于本体的数据融合框架，他们将不同智能设备处获取到的信息以不同的层次进行。BARKAT Abdelbasset Pr.KAZAR Okba 提出了一种从文本中构建本体的策略，他们提出了一种多代理环境下的从文本中构建本体的方法，该方法采用预先定义好的词典，从文本中抽取词组，概念以及关系，最终将他们重新组合为一个整体。这些理论方法为本课题的研究奠定了坚实的理论背景。

四、本研究课题可能的创新之处（不少于500字）

1. 以本体作为科研数据的载体，并进行相关融合

在科研数据分析方面，当前多数系统还是停留在对单一数据源的分析层面上，没有融合多类型文献信息乃至互联网更广泛的数据源。本课题可把多个来源的科研信息，例如文献数据、专利数据、作者个人信息、公告栏数据等，通过本体的方法融合在一起，作为系统的数据支持。

2. 以NoSql数据库作为本体的持久化载体，并提供高效的查询与更新服务

随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。非关系型数据库以键值对存储，它的结构不固定，每一个元组可以有不一样的字段，每个元组可以根据需要增加一些自己的键值对，这样就不会局限于固定的结构，可以减少一些时间和空间的开销。NoSQL具有可拓展性，大数据量，高性能，灵活的数据模型与高易用性的特点，成为web2.0时代十分有发展潜力的数据库形式。

3. 在不同来源的科研数据间建立关联映射，掌握全局的科研现状

在数据融合的基础上，本系统不仅可以对某一类科研数据进行分析，还能在各类数据间建立映射，发现其中关联，从中透视个人、机构乃至领域之间的关系和相互影响，站在一个更高的角度全局地把握科研现状。

五、研究基础与工作条件（1.与本项目相关的研究工作积累基础 2.包括已具备的实验条件，尚缺少的实验条件和拟解决途径）（不少于500字）

1、研究工作积累基础

本人在研究生期间参与了基于信息融合的相关项目，负责其中前期数据采集和预处理以及前台界面开发工作；并且学习了数据挖掘研究生课程，对数据挖掘算法有一定了解，掌握了文本的分类、聚类算法。

本人一方面对相关的软件如ORA的功能进行调研，了解这些软件的特点，另一方面对相关的技术进行了调研，学习了非结构文本分析、本体以及数据挖掘相关的知识。

2、已具备的实验条件

实验室前期已有了多源数据融合的相关基础工作，可以做到对不同来源的数据进行合并融合。而且在之前的项目中，已经有了针对论文数据分析的成型系统，可以完成论文数据的统计查询以及数据挖掘工作。同时，实验室还有很多成熟的数据挖掘算法，能提供相应的数据分析技术支持。实验室拥有从校园网络上采集到的科研数据并做了前期的数据预处理。

3、缺少的实验条件和拟解决途径

目前还缺少支持灵活和完整的多源数据融合的信息模型，特别是针对科研情况、事件、人物、地点，对象能力等的专题信息模型；需要在现有的模型上进行改进或找到更适合的新模型；还需要寻找的当前已有的大数据融合系统来作为对比系统，对于采集的数据也需要进一步的完善，以提高分析准确度。在信息融合方面，还缺少具有较强理论基础的方法，需要研究现有的方法并加以改进。

学位论文工作计划

时间

研究内容

预期效果

2014.01-2014.02

获取科研数据及预处理

获得规整的文本数据

2014.03-2014.05

实现本体构建算法

获得本体构建算法及构建出的本体模型

2014.06-2014.08

实现科研数据分析算法

获得分析算法及分析后的结果

2014.09-2014.11

系统整合及测试

获得测试可用的分析系统

2014.12

撰写毕业论文

完成本课题的毕业论文撰写

2014.01-2014.02

获取科研数据及预处理

获得规整的文本数据

评

定

小

组

成

员

姓名

职称

单位名称

职务

导师意见：

导师（签名）：

日期：年月日

开题报告小组意见：

组长（签名）：

日期：年月日

学院意见（签章）：

负责人：

日期：年月日

推荐访问:开题报告开题报告张倩