
构建情报资源保障能力的关键问题
情报3.0的资源保障层实现异构、异源情报资源的整合。在开放的网络环境中,信息系统资源的异构性、异源性是非常普遍的现象,包括计算机硬件平台的异构、基础操作系统的异构、数据库管理系统的异构、通信网络的异构、应用程序和服务的异构、信息内容的异构等方面。
情报3.0环境下的基础支撑即是对异构、异源信息资源进行统一表述、统一抽取,形成知识的输出。异构资源语义共享的模型,包括网络资源模型,如网络资源描述框架、语言及语义等;同时,还包括不同资源描述间的语义计算,以及异构资源共享协作机制设计等。由于当前社交网络的发展迅速,社交网络存在着巨大的有价值的信息资源,而这些信息资源都是情报资源的重要源泉。因此,本章着重介绍基于社交网络的情报资源采集,同时介绍异构资源库的协同与整合。这是提高当前情报资源获取的关键点。
4.1 基于社交网络的情报资源采集
4.1.1 模型设计思路
目前,结构化的数据获取较为容易,同时,网页文字数据的采集技术也较为成熟。然而社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,提出一种基于众包模式的采集思路。受限于时间和资源,这里仅仅提出一种思路。采用C/S 架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统四个模块。通过主题Deep Web 爬虫系统的分布式机器节点自动向服务器请求爬虫任务并上