正文

ArnetMiner和D-Dupe--网络科技文献分析工具

(2010-07-26 01:59:03) 下一个

转自 http://blog.sina.com.cn/s/blog_48e0ae280100cve4.html

融合复杂网络科技文献分析工具综述 (节选)


□ 毕然 吴斌 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876


摘要:当前对于各种大型网络的各类特征研究已成为学术界的研究热点。为了更加高效准确地分析不同
网络的各类特征,研究学者们已经开发出了大量的网络分析工具。文章首先阐述了用网络分析工具辅助科技
文献领域研究的重要性,调研了国际上的网络数据分析挖掘工具,总结了各种分析工具的特点和用途,重点
从功能、架构、技术上分析研究了应用于科技文献领域两款有代表性的软件ArnetMiner和D-Dupe。最后总结了网络分析工具的分类和进一步的发展方向。

关键字:复杂网络,科技文献,数据分析,数据挖掘

 

网络分析挖掘工具简介

本节将从 面向科研评价领域面向全领域面向社会科学领域面向分析专题的工具这四个领域方面来介绍国际上流行的各个网络分析工具。

 

2.1 面向科研评价领域
ArnetMiner:科研合作网的专家检索系统(http://www.arnetminer.org/)。 ArnetMiner主要面向研究社会网络的各种特征,提供在线的作者资料检索,是相关领域及合作关系挖掘软件,可以很好地找出领域专家、作者从事的领域、合作团体等。该软件偏重于对单个作者信息的检索和挖掘,只集成了部分挖掘算法。项目在 2007年开发完成,使用的技术和方法都比较新颖,对领域专家和科研评价都有比较好的效果。
● CiteSpace:一款免费的用于分析、挖掘和可视科研文献数据的 Java应用软件(http://cluster.cis.drexel.edu/cchen/citespace/)。是一款专门针对科研文献数据设计的分析可视化软件,尤其针对于作者引文网的分析和可视化。项目的开始时间 2004年10月份,最后一次更新时间是 2007年9月30日。

● PaperLens:用优雅的可视界面来反应某科研领域的发展趋势、活动和关系的软件(http://www.cs.umd.edu/hcil/paperlens/)。如名称所示,它专门针对文献数据的分析和挖掘,包括统计、评价等功能。它将文章、作者和会议间的关系挖掘出来,已经实现了对1995-2002年8年期间的 Infovis会议的论文集数据的分析,并进一步扩展到对(1982-2004)23年间的 ACM SIGCHI会议文献的挖掘。现在由马里兰大学和微软公司共同研制,进行进一步的研发,将来用于科学评价领域。
● TDA:Thomson data analysis是一款基于文本信息的分析和可视化工具,可以对科技文献领域提供强大的可视的搜索和挖掘功能(http://scientific.thomson.com/products/tda/)。 TDA功能全面,涉及检索、分析、统计、可视化等各方面的功能。其特性是检索功能强大,并将其它功能与检索功能相联系。

 

2.2 面向全领域
● The Network Workbench(NWB):是一款面向大规模网络数据的分析、建模、可视化的工具集(http://nwb.slis.indiana.edu/)。它面向网络研究相关的各个领域,如生物学、社会科学、物理学等。并且是一款功能全面综合的辅助软件,包含了网络挖掘分析和可视化功能,可以辅助完整的研究流程。其构架使用的是 CIShell技术,具有分布式、松耦合、插件式服务等优点。该软件创始于 2005年10月,最新的版本是NWB Tool 0.8.0 Release(Dec 14, 07)。
● Information Visualization Cyberinfrastructure(IVC):是一款信息可视化的工具集,收录了很多实用的可视化基础工具(http://iv.slis.indiana.edu)。.IVC在2000年开始作为一个软件库工程来开发。其目标是提供一套全面的数据资源、算法资源、计算资源、以及如何使用数据挖掘和信息可视化算法的教学资料。IVC的四个主要部分是:数据库、计算资源、软件和学习模块。其中比较知名的开源可视化软件库 JUNG、Prefuse都收录在软件模块里。收录的大部分软件未商业化,其中既包含了面向分析挖掘的软件也包含了面向可视化的软件。
● CNetMiner:用创新的交互方式来挖掘网络型数据的软件工具,具有很强的实用性(http://www.netminer.com/NetMiner/home_01.jsp)。它重点强调了可视分析的概念,允许用户用可视的、交互的方式挖掘底层数据的模式和结构。它面向网络挖掘相关的全领域,同时具有分析挖掘和可视化的功能,更重要的是它将算法分析和可视化结合,提出了独特的挖掘方式。当前的软件版本是 Version:3.2.0.071115 Released:November.15,2007。该软件是完全商业化的软件,由韩国公司开发。
● Piccolo:是一款基于 Java 2D技术用于可视化结构图形的软件工具集(http://www.cs.umd.edu/hcil/piccolo/)。它的特点是支持可收缩的图形界面。该工具创建的较早,在当时可收缩的图形界面是一大创新,但当今出现的大部分可视化软件都具有可收缩特点。该软件的另一大特点是同时提供了 .net和Java两个编程的版本,为非商业化软件。
● VxInsight:是一款专门在大规模网络数据中发现和分析实体关系的软件(http://www.cs.sandia.gov/projects/VxInsight.html)。它是面向研究的全领域、构建得较早(1995)的网络关系发现和分析软件,集成了分析和可视化的技术。该软件现在还未商业化。
● Netlens:是一款以交互的方式挖掘网络数据的软件工具(http://www.cs.umd.edu/hcil/netlens/),其特性是基于内容驱动的分析方式。它指出了比较流行的网络可视化方法的缺欠,提出了新的交互式发掘信息的方法,并给出了具体的实现。同时,它提出了用树来表示图形信息的功能,命名为 treeplus,有很好的视觉分析效果。它也是面向各个学科领域的一款综合性的分析软件,现阶段实验效果比较好的方向是科研和邮件社群网络。
D-Dupe:是具有交互式、任务可视化的处理实体解析领域的软件(http://www.cs.umd.edu/projects/linqs/ddupe/)。其专攻的领域就是实体解析,应用如科研合作网的作者重名解析等。其具有良好的用户界面,将实体解析的流程可视化并提供手工辅助操作的功能,是商业软件。

2.3 面向社会科学领域

● UCINET:社群网络分析挖掘软件,主要功能包含:核心节点挖掘、子团体挖掘、角色分析、初等图论等(http://www.analytictech.com/ucinet/ucinet.htm)。这是一款比较有名的商业化软件,不仅应用在科研领域,还在商业智能等领域发挥着作用。最新的版本是 07年10月份发布的版本 6.178,该软件的特点是功能强大全面,集成的分析算法比较多,界面简单易用,是社群网络分析挖掘的首选。


2.4 面向功能专题的工具
● CFinder:基于 CPM算法面向社团结构挖掘的软件(http://www.cfinder.org/),同时侧重于网络演化的发现。该软件专注于在海量数据的网络中挖掘出各种结构和社团,并研究这些结构和社团的演化及标识问题等。该软件起始于2005年,并未商业化。
● C-Group:是一款研究在社会网络中随时间演化的动态社群的分析软件(http://www.cs.umd.edu/projects/linqs/cgroup/)。和大部分的网络可视化工具不同, C-Group既不是展示整个网络,也不是展示以某个节点为中心的网络,而是关注于由用户定义的一个社群和社群中的节点随时间的变化。它与D-Dupe是同一个实验室的研发小组开发,提供的是与D-Dupe相类似的界面,属于在 D-Dupe之后该实验室最新的研究成果。但其还未提供成熟的软件版本和相应的文档说明。
● KrackPlot:是一款为社会网络所设计的网络可视化工具(http://isi.edu/~blythe/KP/)。它简单易用,可以快速地构建程序并有较强的适应性。该软件专注于可视化技术方面,当前的版本是 4.3(11/02/2006),未商业化。
● SoNIA:动态的显示网络发展或者可视化流程的 Java软件包(http://www.stanford.edu/group/sonia/)。其在可视化方面的特点是可以将网络演变或者布局的过程动态地展现给用户,还可以将这个流程保存成视频文件。该工具最新更新 9/15/2004。

 

在众多的科技文献数据挖掘工具中,ArnetMiner和D-Dupe两款功能较强,有代表性的工具软件。 ArnetMiner是由清华大学计算机系工程研究室开发,D-Dupe由美国马里兰大学开发,均为未商用的软件。其中,ArnetMiner属于功能全面的软件,涉及从数据处理、整合开始,到检索、挖掘、可视化方方面面的功能。而 D-Dupe则针对于数据预处理——实体解析这个领域提出了自己特别的解决方案。

[ 打印 ]
阅读 ()评论 (0)
评论
目前还没有任何评论
登录后才可评论.