金融知识图谱概述
摘要
知识图谱是通过保存实体和实体间关系来实现语义搜索的数据库。金融知识图谱是通过将公司、管理层、新闻事件以及使用者个人偏好都表示为实体,发现其间的联系,让对金融数据的搜索更加高效,进一步能为投资者提供针对性的投资建议。对公司来说,金融知识图谱有利于提高风控、反欺诈、获客等能力。本文简述了金融知识图谱从知识提取、本体存储、分析推理到知识利用的流程。
背景
如同吴文俊先生在《人工智能及其应用》序中所提,脑力劳动机械化将为社会效率带来不可估量的提升。目前(2016)A 股和新三板上许多财务报告已经使用
XBRL(可拓展的商务报告语言)进行规范化,便于计算机处理和呈现人们想关注的重点,从而消除了价值判断过程中阅读大量原始材料的负担。
然而 XBRL 基于
XML(可拓展的标记语言),是较早期的技术成果,无法很好地承载语境、关系等语义信息。例如当需要把子公司
A 的收入汇总到总公司的总收入里时,除了在子公司 A 的账内说明以外,还需要在总公司的帐里再次进行冗余的陈述:「总公司的总收入包括子公司 A
的收入」,而这种冗余有时又会导致不一致性。而在进行基本面分析时金融数据源则反而显得单薄,需要手动去查找总公司有几个子公司、其收入几何、总公司有没有负面新闻、子公司有没有负面事件等等,并将其与汇率、利率、政策等世界知识联系在一起,因为
XBRL 无法自动帮我们联想到一次基本面分析所有维度上的信息。类似地,自动交易程序也因为数据源的诸多限制而可能带来交易损失。
理想的情况是,当我们或一个程序对一个公司或有价证券产生兴趣时,有一个系统能自动整合网上公开信息和使用者拥有的私有信息,不仅仅是金融报告,还包括 911、熔断机制、舆论走向等世界知识,对有兴趣的实体进行基本面分析,或对某个实体集合进行量化分析。这样的系统被称为「语义网」或「知识图谱」,其构建方法从上世纪六十年代就开始了研究,其研究目标是利用海量开放数据发现现实世界中各实体间的关系并从中推理出有实用价值的知识。
知识图谱与机器学习的关系
目前有许多金融从业者已经接纳机器学习方法为他们工作的一部分,需要说明的是,知识图谱技术与机器学习技术有以下相似之处:
- 都使用海量标注数据集
- 都以替代人类进行分析实体特征为目标
- 知识图谱中需要用到机器学习,机器学习也需要知识存储
但它们相异之处在于:
- 知识图谱不需要训练
- 知识图谱可以容忍比较「脏」的异构数据
- 知识图谱推理的中间结果很容易让人类理解
有哪些公司已经入行
2005 年由来自 University of Southampton (语义网的核心研究机构之一)的核心成员成立于英国的 Garlik 公司收集公共网络上的个人信息,并对信息盗用提供报警服务,后被信用记录公司 Experian 收购,用于提供信用分析服务。
2004 年在硅谷开始运作的 Palantir 结合客户提供的信息源与公共网络上的事件提供对海量数据的研究分析,其金融数据分析平台 Palantir Metropolis 可以对金融数据进行复杂搜索、可视化编辑、关联发现等操作。
文因互联是 2013 年在北京成立的公司,希望通过金融知识图谱和金融语义搜索帮助投资者对标 A 股、获取新三板信息、挖掘交易数据的背后信息(如异常交易等)、发现投资机会。
其他领域中的知识图谱
2003 年,美国国防部先进研究项目局启动了 CALO(能自我学习和组织的认知助理)计划,旨在研发出一款能协助军方指挥官完成信息处理和办公任务的虚拟助手软件,投资 1.5 亿后,这个军方项目为 Siri 的诞生奠定了基础。在研发过程中,siri 就能判断一场会议中与会人员的身份特征,并自动分发材料,同时能在其中一个成员请假时决定是否需要取消这次会议。
Google 于 2012 年推出其整合入搜索的知识图谱,由于互联网上的搜索近半是关于某个实体的,含有 5 亿个以上实体和 35 亿条以上事实的 Google 知识图谱能在很多情况下直接向搜索者返回精确定位的知识,例如「how long is a marathon」会直接返回「42.195 kilometres」。
建造流程
知识图谱建造的流程一般是: 脏数据 -> 干净数据 -> 文档树/表 -> 图谱 -> 本体 ->...
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: