雷锋网 AI 研习社消息,日前,上海交通大学王新兵教授和张伟楠教授指导的 Acemap 团队知识图谱小组发布了学术知识图谱 AceKG。从官网可以看到,Acemap知识图谱(AceKG)描述了超过 1 亿个学术实体、22 亿条三元组信息,包含六千多万篇论文、五千多万位学者、五万多个研究领域、将近两万个学术研究机构等,数据集将近 100G。
知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,揭示知识领域的动态发展规律,为研究和决策提供切实的、有价值的参考。
目前,随着机器学习和自然语言处理技术的不断发展,在大数据的推动下,知识图谱受到学界和业界的广泛关注。但目前它的发展还存在着不少阻碍,例如从数据中挖掘出高质量的知识需要大量的数据处理工作,构建垂直领域知识图谱的代价很大,很多研究工作都不具备实用性等等。
而 AceKG 究竟有何优势?据发布团队介绍,与现有学术知识图谱相比,AceKG 主要有如下三个特点:
AceKG 提供学术异构图谱,包含多样的学术实体与相应的属性,可以支持多样的学术大数据挖掘课题,例如现阶段异构网络向量化的诸多课题。
AceKG 从更高的角度统览整个学术圈,提供了近 100G 大小的数据集,包括论文、作者、领域、机构、期刊、会议、联盟,支持权威和实用的学术研究。
AceKG 以结构化的 Turtle 文件格式给出(具体格式见下表),致力于减少数据预处理的不便,同时更易于机器处理,支持全部 Apache Jena API。
下图是 AceKG 的结构框架。可以看到,AceKG 为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,可以为众多学术大数据挖掘项目提供全面支持。
以下是一些示例文件,大家可以点击如下链接http://acemap.sjtu.edu.cn/app/Datasets/KG/example.zip,来了解和使用该知识图谱。
此外,AceKG 使用 Apache Jena 框架驱动。Apache Jena(http://jena.apache.org)使用 TDB 数据库存储数据,并且提供 SPARQL 引擎进行数据查询。它还为 Web 客户端提供 FusekiHTTP 服务,并提供完整的 Java API 查询数据。架构如下图:
值得一提的是,AceKG 并不是雷锋网(公众号:雷锋网) AI 研习社报道的第一个学术知识图谱。此前,清华大学教授、Arnetminer 创始人唐杰博士公开亿级学术图谱——Open Academic Graph。此图谱集成了两个最大的公开学术图谱:微软学术图谱(MAG)和 AMiner 学术图谱。开发团队通过集成 MAG 中 1.66 亿学术论文和 AMiner 中 1.55 亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。
据唐杰教授介绍,公开 Open Academic Graph 目的如下:一是集成丰富的学术知识数据,二是数据共享,三是服务共享。简言之,他们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘等领域的研究,设计更加智能的学术图谱连接系统,以方便更多人使用服务以及加入开放学术社区。
在雷锋网 AI 研习社看来,这些学术知识图谱的发布,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。相信随着越来越多学术知识图谱的公开,将促进学术大数据挖掘项目的持续发展。
AceKG 详细信息,参见:http://acemap.sjtu.edu.cn/app/AceKG/index.html
雷锋网版权文章,未经授权禁止转载。详情见转载须知。