2018年3月7日美国智能投研公司Kensho被标普全球以5.5亿美元收购,这是迄今为止华尔街最大规模的人工智能公司并购案。
5.5亿美元贵不贵Kensho究竟能做到什么?它的模式将给国内智能金融行业带来怎样的启示为什么智能金融领域没能出现第二个 Kensho?为什么智能金融不必复制 Kensho
在上半部分的文章中,文因互联 CEO 鲍捷博士结匼两年多的实践探索经验为大家一一解答。
鲍捷博士文因互联 CEO。拥有20年学术界和工业界的相关经验美国Iowa State University人工智能博士,RPI博士后MIT访問研究员,W3C
OWL(Web本体语言)工作组成员前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师主要研究领域涵盖人工智能的诸多汾支,包括机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程等发表了70多篇领域内相关论文。是中文信息學会语言与知识计算专委会委员中国计算机协会会刊编委,W3C顾问会员会代表2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。
2013年Daniel Nadler创立了Kensho;2014年Kensho与高盛合作,并获得高盛的1500万美元投資;2017年,获标普国际领投的B轮5000万美元融资估值达5亿美元;其核心产品是金融决策引擎“Warren”,曾成功预言英国脱欧后的英镑走势,及2017年美国科技股的强势上涨
Kensho 以5.5 亿美元被收购,这个消息到底是一个利空还是一个利好?
我今天想要和大家探讨:
-
第一Kensho是什么;
-
第二,怎么做出 Kensho;
-
第三我们能不能做到;
-
第四,是否应该那样去做
接下来要讲的,有的是事实有的是观点,有的是信仰
事实是大家都已经看到的東西;
观点我相信而且有一定的证据能够证明的东西;
信仰是在遥远的未来才能够证明的东西。
AI的循环:人神共愤 or 骗子
先做一个简单的自峩介绍我从1998年开始做人工智能的研究,人工智能有几个大的学派神经网络、机器学习,还有逻辑学派或者说理性主义学派,这几个學派我或多或少都有一些涉猎。
我在2001年去的美国在衣阿华州立大学拿到博士学位,博士期间主要做语义网的研究这个领域现在改名芓叫知识图谱了。2007年博士毕业以后去了伦斯勒理工学院(RPI),2010年的时候去了MIT在 图灵奖得主Tim Berners-Lee
的实验室。2011年去了三星美国研究院在那里莋自然语言处理的研究,研究问答系统2013年以后,开始自己在硅谷创业2015年的时候,把团队带回中国来专注在智能金融领域。我们的公司叫文因互联
自己跟金融有关的经历,是2010年还在MIT的时候跟MIT管理学院,还有Fidelity的工程师一起做了一个 XBRL 的语义建模XBRL 是金融报表语言的一个國际标准,但是只是一个 XML 的标准它并没有语义,不能做推理
比如说财务自动校验,是它本身没有的能力我们给它定义了一个语义模型以方便后续的自动化工作。后来基于这个工作我们在2011年做了一个基于语义和社交数据的基本面分析的论文,后来这篇论文拿了 IEEE金融工程和计算智能会议最佳论文
2015年以后,我们就把其他的业务都砍掉了专门做金融这方面,前前后后实验了很多产品一开始做新三板的數据库,然后做金融搜索引擎、自动化报告、公告、研报的摘要机器人等等。我们主要用知识图谱技术帮助金融机构做业务的自动化洳自动化读公告、自动化监管、自动化审计、流程自动化、问答自动化等。
人工智能到现在也有60年的发展历史了自从我入行以来,我也經历了两个小的低谷总的来说,人工智能的发展基本上都是下图这样的:
一会儿说人类要毁灭了一会儿又说人工智能是骗子。尤其是詓年“人类要毁灭”了的新闻到处都是,但从今年以来各种反思乃至否定的文章也开始出现。
以下是几个神化人工智能的例子:一个昰说高盛的交易员要被人工智能取代了
另一个是说35岁以前,如果还一事无成你还能去哪?
最后一个新闻最令人恐慌用了一个非常夸張的词,“人神共愤”
这到底还是不是人工智能?
要判断是否具有AI属性不考虑科学论证的严谨性,一个直观的判断标准看里面是否囿机器学习、知识图谱、自然语言处理等成分,如果没有其实它更多的是传统的自动化。
比如说第一个新闻高盛的交易员只剩两人,昰人工智能导致的吗并不是。因为这里面并没有什么人工智能的技术交易本身是一个执行,并不涉及策略的形成交易本身分很多级,从低级到高级现在真正被替代的应该就是一些机械的,既定的策略去执行一下就好。与其说是人工智能替代了这些人不如说是数據库和网络替代了这些人。
第二个技术其实是在讲会计。现在我们看到德勤等很多会计公司都推出了过程的自动化、财会的自动化这些技术是不是人工智能?很难说是不是人工智能
最后一条关于Kensho,Kensho的的确确是人工智能从数据层到表现层,最后到策略层是人工智能嘚一个综合应用,Kensho有一个很大的知识图谱部门
大约从2013年、2014年开始,新一代真正的人工智能系统开始应用在金融领域所以人工智能确实昰在改变这个世界,改变这个行业
但到底是不是真的会做到人神共愤的层面,我们再往下看故事
Kensho 这个词是什么意思?Kensho 是一个日语词咜是日语的“见性”,明心见性是个佛教用语代表的是说大彻大悟,醍醐灌顶的意思
说起来很神,本质就是三个字——“相关性”
夶数据领域兴起后,其核心想法是与其去发现因果性,不如把数据积累起来寻找事件和资产之间的相关性,以及事件对价格、特别是價格长期趋势的影响这就是 Kensho 提供的主要服务。
因为我不是 Kensho 公司的我所知道的消息都是从公开渠道收集来的,或者打***从老同学、老哃事那里收集来的未必完全准确。但我们理解 Kensho 并不需要真正的去深入它的系统本身的那些细节上去我们从它的逻辑和它的基本服务,夶体上可以推断出来它要干什么建立这样的系统需要什么样的东西。
我们看几个例子Kensho 推出的最主要的应用,就是 Warren 搜索引擎或者说决筞引擎。它能在一分钟内完成过去分析师要做几个小时甚至几天的工作。
首先 Kensho 的底层是一个很大的数据库。两年前它是9万个数据集嘚数据库,在此基础上有各种事件、价格、基本面
这个图是某一个ETF(Exchange Traded Funds 指数基金)的基本面研究,下面有哪些资产在ETF下面它们最近的趋勢是什么,比例是什么可以往前的推断指标是什么。这是 Kensho 基本的数据像这样的数据有成千上万个。
在此之上刚才提到了,它要做一個趋势性研究核心就是说如果有一些事情发生了,它跟资产价格之间在长期来看是什么样相关的趋势。图上这个例子在讲欧洲的整個资产相对于英国的贸易,它们之间的相关性是什么这其实是一个很长很长的图,我只截取了前面一段就是在讲相关性的各种指标是什么。
第二个例子是原油(见下图)在某一种价格变动后,WTI原油的表现一周内会发生什么变化这也是各种指标和指标之间的相关性。所以Kensho里不仅有股票也有各种大宗资产、期货。
第三个例子是事件影响分析下图描述了2000年以来,春节对资产的影响由此可以决定我们嘚策略。“事件影响分析”也是 Kensho 在新闻里最常见的一个卖点
第四个例子是长期趋势分析,2010年以来应该是从美股恢复以来,每年9月份彡大指数,它们的表现是什么样所以它有非常多数据切片的分析。我记得2016年美国大选结束的时候 Kensho第二天就推出一个图,分析如果是共囷党的总统上台对于资产长期来看,会有什么样的影响各种相关性的比较,可以想象出来无穷种的组合
第五个例子是一个策略:如果原油价格超过了50美元一桶之后,我买入5天之后就卖出,这样的一种事件从历史预期来看,我能得到什么样的回报率像这样简单的筞略,也是有无穷多种的组合的
对一个初级分析师来说,要做以上这些事他要去收集数据、整合数据、自己做相关性分析,还要画图Kensho 则可以一分钟内完成这些以前要几小时,甚至几天才能做完的事从这点来讲,华尔街有些人会“人神共愤”是可以理解的。
我们也紸意到刚才有几段截图是从电视上来的,这是CNBC在 Kensho 的早期,它的几个商业模式之一就是跟媒体合作帮助媒体分析。另外一个就是像高盛这样的获客、留客、分仓的商业模式
在电视访谈里面,也有人问过 Kensho
的创始人问你们自己去炒吗?他很坚定地说我们自己不去做交噫,我们要做成千上万家金融机构决策的提供商但我们自己不下水做交易。有一段时间Kensho被高盛买了以后其他人就很难用到了,只有高盛的客户才能用我又问了我在高盛的同学,他们自己也不太能够用到这个东西所以外边也很难用得到。不知道在座的有没有用过kensho的?(参会者回复)没有
不久以前,Kensho 以5.5亿美元被标准普尔收购贵不贵?
大家一开始对 Kensho 的预期远远高于5.5亿美元公认 Kensho 有非常巨大的市场。洇为整个金融的数据市场大概是260亿美元。
大约在三年前有一个新闻说,说如果广泛加以应用那么 Warren,即Kensho 的搜索系统可能会撼动长期鉯来,被彭博社、汤森路透所垄断的260亿美元的金融数据市场如果它真正能够撼动市场,它将来的价格不会是5.5亿美元
下面的几句话都是囸方观点,在两年前或三年前的时候大家看到 Kensho 的时候,其实预期是比现在更高的其中一个说,如果Kensho 的产品最后能够研发成功金融机構的分析师和研究人员将面临灾难,面对更快、更好的机器人分析师他们毫无胜算。
最后一句话也是Kensho 创始人自己在一次访谈里说的,怹说他推出了 Kensho 这个系统以后有人给他打***说:“你这个叛徒!如果你发现了这种关系,你就用这种关系来交易但你不要公开它,你公开它就导致大家都没法交易了。”
事实是5.5亿美元的价格,从某种程度上说明上述预期并没有达到。
我也找到了一些针对 Kensho 的反方观點这些观点不一定正确,但是非常值得思考
第一个说法是,彭博可以很容易地复制 Kensho 而且可以做得好100倍。我在咨询彭博的同学后感受是,彭博在短期内还做不出Kensho。自从我回国以来我听到了至少不下10个团队,试图去复制 Kensho也有一些非常大的国家级机构,也想去做这種东西到目前为止,还没有一个能做成的
第二个观点来自高盛的朋友。他说这些年来并没有看到 Kensho 做出什么牛逼的东西,也没见高盛內部人用过 Kensho 更多是高盛的客户在用。
第三个有人质疑,说 Kensho 提供了相关性统计过去的事件对股票的影响,针对未来的操作会有指导意義吗胜算有多高呢?我们也知道其实我们在买基金的时候,都会有这么一条说明过去的业绩不等于未来的预测。过去的相关性是不昰对未来有指导意义可能不同的学派对这些有不同的想法。
最后一点我想应该是被证实了的。普通人想一夜就能成为坐着数钱的交易員的话还是洗洗睡吧。Kensho 这样的大杀器到底能不能让人挣钱,这是第一个问题它能不能让普通人挣钱,这是第二个问题我想这两个問题,在目前还没有明确的***至少现在没有肯定的***。
我们回过头来看为什么 Kensho 能值5.5亿美元?
5.5亿美元在某些情况下,我们看是个尛数字但已经是近年来最大的一笔人工智能公司的并购了。
在人工智能领域里一般来说,常见的并购额度是1亿到2亿美元我们知道,Siri 當初的收购价格是2亿美元微软在几年前收购 Powerset 的时候,也就是它的智能搜索引擎2亿美元。最便宜的是亚马逊的智能音箱背后的搜索引擎True Knowledge2600万美元。
所以说相比之下Kensho卖了5.5亿美元,可以说是给人工智能公司打了一针兴奋剂对于某些投资机构,也是一个利好的消息
我们从kensho底层来看,想复制它的的确确是一件不容易的事情不管是在中国,还是在美国
基于这样的技术复杂度,5.5亿美元是一个非常合理的价格
为什么过去4年没有一家团队能够成功复制 Kensho?
Kensho包含三个难度比较高的组成部分这三个组成部分在中国的基础目前都还不到位。它们分别昰:底层的结构化数据库、中间层的金融领域知识库和前端的问答技术
第一个部分是结构化数据库。如果我们简化一下 Kensho可以不精确地認为 Kensho 是给高盛的结构化数据库做了一个自然语言的前端。如果让 Kensho
从头把所有的结构化数据库做出来那一两年绝对不够,十年也不一定行高盛在过去20年多少万人的积累,才创造出来这样一个底层数据库比如SecDB,现在应该远远不止9万个数据集了在此基础上才可能有 Kensho。有了仩述的基础设施以后在上面做自然语言的前端,才能水到渠成
Kensho 的产生也依赖于过去十年美国整个数据生态系统的发展。2009年奥巴马上台時曾发布过一个总统令,要求美国所有政府部门都开放数据其中也包含了大量金融部门,包括 SEC美国所有基础证券的信息,各个细分領域的国民经济政府数据都是开放的所有人不需要任何申请就能拿到。到目前为止美国政府已开放了上百万个这样的数据集。
而在中國这样开放的数据基础近乎于零。现在连基础证券的数据包括新三板或者主板的 XBRL 数据,还不能让所有人免费、公开地访问这个数据苼态的差距是以光年来计算的。
第二个是金融领域的知识库在做金融统计时,会有各种关联分析、回归分析和细分子领域的分析比如產业链、财务模型、行业模型,宏观模型、投资模型等等
以财务模型为例,美国有 GAAP 模型中国有 CAS 模型,这都是成千上万条不同的会计准則有了这些准则后,我们才能做财务的一致性校验
在产业链领域,国内也有一些公司在做美国的Capital IQ公司,很早以前就把产业对标做得佷透了而国内,还远远没有做好给公司打标签或对标研究这件事。行业模型、宏观模型、各种投资模型现在也都是方兴未艾。我们洳果想做好上面提到的
Kensho的几个案例逃不掉这些模型。而要做这些模型需要协调各领域、各分支的专家,整合各种各样的专家知识目湔在中文领域,这一块还比较缺失
第三块,从技术上来说是更有挑战的东西就是前端问答技术。前几天我在知乎上回答了一个帖子,有人问:Kensho 能不能复制复制的核心技术要点是什么?我回答前端问答是其中的一个大挑战。一位读者留言说:问答技术没什么了不起现在搜索引擎公司早就解决这个问题了。
这是一个误区像小冰这样的问答机器人,大家看起来已经很智能了但这种技术很难用在 Kensho上,因为这是两种完全不同的技术路线
小冰本质上是一种基于检索的技术。它是从一大堆文本里头找到过去存在的相似问答,再做***囷问题间的匹配用术语来说,是用端到端的深度学习的模型来做训练但这样的模型,有两个问题:第一它无法精确地理解这个问题昰什么,就是说它无法进行语义解析;第二它的***很难被构造出来。比如像上述Kensho
例子中一些各种不同切面的切分,各种不同指标的組合我们可以设想出无穷多种的组合,但用深度学习技术却无法生成无穷多种***。
如果想做到这一点我们必须要做语义解析,也僦是真的理解用户说的话理解他说的词是什么意思,词和词之间是什么关系这可能是这个问题最难的一点。到目前为止这还不是一個完全被解决的问题。具体要做语义解析又要涉及大概十几种非常专业的技术。小冰的技术是没有办法用到 Kensho
这样的强知识性问答中的
囙顾了这三个关键点后,我们可以说想建立Kensho
这样的系统,要依赖于很多先决条件包括数据基础、领域知识库基础和前端问答基础,这彡块都很有挑战对专业人士而言,这不是一个令人吃惊的结果因为在过去40年的专家系统开发中,这些问题一直都困扰着整个知识工程堺只是现在在金融领域,我们再次遇到了这些拦路虎
所以我要为 Kensho 团队点赞:他们做得非常好,Kensho团队现在是600多个人他们技术部门是100多囚,用100多个技术人员就能把这样高复杂度的问题做到现在的结果,非常不容易
前面主要是在讲 Kensho 是什么,大多数都在陈述事实在这一篇章,我主要讲我的观点还有信仰。
先说一个事实过去4年了,我们没有看到真正的 Kensho 的复制品为什么会没有?我提出两个观点和一个信仰
第一个观点,Kensho 不会取代任何人所以说刚开始我给大家看的三个新闻截图,我认为是不会发生的Kensho 不会取代任何交易员,Kensho 不会取代任何投资经理Kensho 不会取代任何分析师,甚至 Kensho 未必会取代任何实习生因为它所要做的事情跟我们对它的期望,其实是有很大的距离的
第②个观点,Kensho在中国目前无法复制从技术、产品、商业模式几个层面上来分析。
技术层面刚才分析过了想造出这样的产品来,可能还需偠一段时间的发展
数据层面这边,金融数据是不是能开放基础数据库、公告数据库、研报数据库,市场上是不是有厂商可以提供中國现在有400种公告,每天就有大概2000多份公告还不算新三板的。这些公告绝大多数没有结构化什么时候能够结构化?
我们之前有研报的一致性预期研报里面仅仅只有这些信息可以用吗?很多其他的信息不管是做交易,还是做监管都是需要的。
还有新闻每天成千上万條新闻。舆情监控基本上只能做到一个正负面是不是可以再深入分析?大量的新闻里面的数据是不是能够被应用起来我们脱离这些数據基础来造 Kensho,现在是造不出来的
最后一点,从商业模式上来讲Kensho最早的商业模式,应该是帮助这些券商获客或者来提高客户留存率。洇为券商作为一个服务机构它向客户提供投研能力,让更多的交易发生在自己的平台上面从而提高分仓佣金,这是一种商业模式Kensho 从Φ可以分到一笔钱。这个模式在中国能不能复制成功到目前为止还没有先例,也许可以
最后我认为,我们现在做智能金融可能大家僦直接奔着提高交易的效率,或者是挣更多的钱或者是打败这个市场的思路,这个模式是不是应该追求的经过两年多的探索之后,我認为这个事情未必应该是这样的或者说智能金融应该有一个更大的途径,而不仅仅是追求 Kensho 这一个途径
这个途径,我认为应该是通过零件的打造逐步走向所谓大工业的金融。
前两天我们跟另外一个证券公司的人聊过,他们从两年前就开始想复制 Kensho内部加上外部的合作商一起开发,都开发不出来他很失望。
“Kensho”打引号的Kensho,不是说Kensho本身而是这样一种聪明的金融专家系统,是我们的目标可能路径比峩们的目标更重要。目标是引导我们走向未来的一个明灯但是我们真正想走到目标,更重要的是怎么去设计这个路径
是不是我们直奔著目标,这个路径就对了大多数的历史进程里面,证明不是这个样子的我们需要迂回。
所以在我看来就目前这几年时间,比较合理嘚目标和路径是把一部分信息处理流程标准件化,这是目前阶段比较合理的追求目标
大概两年前,我去一个资管公司他们有千亿以仩的总资产。总经理问了我两个问题:第一你现在立即、马上就能帮我挣钱吗?第二你是不是立即、马上,就能够帮我比市场上其他囚挣更多的钱
我实事求是地说,好像这两个***我现在都不能给你肯定的答复。
他说如果做不到那你们搞智能金融还有什么意义?
峩相信这个想法可能在那个时候非常普遍,是一种非常高的预期最近这两年跟大家沟通的过程中,越来越少地听到这样的想法
我们哏多家机构合作都找到了更小的落地点,大家不再追求这样一个可以说是非理性的目标了
回过头来,咱们想一想如果这家公司有数千億,你能持久地高于市场的回报率最终的结果会是什么?这种事情真的有可能发生吗任何人也打败不了市场,市场打败不了市场本身