图片来源:epochtimes
“做私募(基金)的朋友在离开公募(基金)的大平台后面临很多问题,没有IT环境、研究环境,缺乏运营环境,建立自己一套平台或者环境需要大量的投入。”通联数据CEO王政曾在采访中表示:“我们看到了这样的行业趋势,所以从2012年开始筹备通联数据,帮助私募解决运营、研究、投资和管理上的需求。”
通联数据(DataYes)是万向集团投资成立的一家金融资讯和投资管理服务公司,该公司希望通过大数据、云计算、机器学习等信息技术,为资产管理人提供新的金融资讯和投资研究数据分析服务。前不久,该公司获得了中国电子信息产业发展研究院颁发的“中国人工智能金融行业领军企业奖”。
在2012年正是P2P互联网金融这样的新金融火起时,多年以前就布局金融领域谋求转型的万向集团,选择的却是“最底层”领域,包括今日看见的区块链、人工智能大数据平台等。要知道,曾经的P2P如今营收融资都以亿为单位计算,只是互联网金融这些场景化为主行业,如今面临着迫切的技术变革的要求和挑战。
万向控股副董事长肖风,也是通联数据董事长,曾任博时基金总经理,他称,“互联网金融热起来时,我们在想新的金融业态,新的金融形态我们投不投?当时考虑的过程当中,我们认为万向这样一个集团去做P2P的话是没有场景优势的。没有场景硬上P2P或者众筹就可能走歪了,现在看到很多人已经走歪了。”所以综合考虑后,万向集团决定不做P2P。
那么,互联网IT技术+金融,放下区块链不说,在这个“言必称大数据、人工智能”的时代,万向旗下专注于资产管理创新的通联数据,又在做些什么呢?
3.5亿底层投资,搭建人才和数据平台
通联数据,如今刚刚从万向大厦搬离至新的办公楼,“原来的地方坐不下了。”据悉,过去三年到现在,通联数据花费3.5亿元,将团队扩充至200余人,并建立了多个基于云的底层数据平台。
在底层数据库之上,通联数据又构建了两个云平台,萝卜投研和优矿,其中萝卜投研是针对基金经理和研究员提供智能投资研究数据服务的平台,而优矿则是一个众包的、分享式的金融数据量化平台。它们主要对海量投资需要的信息进行降噪、归类和推荐,通过机器学习、文本挖掘提供投资分析中需要的舆情分析。用户可以从中获取数据分析,搭建自己的交易策略并共享。
优矿界面
把各类数据集中一起,并依靠数据、机器学习模型将其作用于投资分析,通联数据智能投研总监向伟表示, “我们做大数据驱动的基本面投研,是期望能够从市场上海量的、高频的、更细力度的数据当中,去抽象挖掘一定的机制,把超越人脑能够分析的大数据当中所蕴含的价值进行提纯。最终对接基本面投研所需要的假设。”
据介绍,通联数据现在的数据来源分为三部分,一部分自己搜集整理,二是从第三方购买,第三种是数据商把数据整合过来放在云平台,有用户使用则向数据商缴费的模式。这些数据对接了沪深股市/期权、债券、基金、咨询、研究报告等,并提供API开放给外界。对于主要发力点在数据端及数据质量优化,肖风表示,“我觉得这是一个方向,在现在人工智能逐渐兴起的这个阶段,创办工业数据的深度学习技术,是相当有必要的。”
而通联数据的团队配置,据介绍主要包括两类人:一类是金融背景的人才,这些人此前是资产管理机构的研究员、基金经理,如金融工程董事总经理薛昆,他原是瑞士银行投行全球量化团队董事及摩根大通量化研究团队副总裁;另一类是互联网人才,一般来自谷歌、微软、阿里等互联网巨头,如智能投研总监向伟,他曾任百度个性化搜索负责人。
“人工智能+资产管理”云:解决基金公司数千万成本问题
众所周知,私募基金面临硬件、软件、数据、运营等系统的大量建设,后续硬件换代的维护和升级也非常麻烦,时间成本和资金成本很高。“以往的模式是买硬件买软件,招IT人来搭建系统,资金、时间、人力成本居高不下。而基于云的金融投资管理的IT服务平台只需要注册登记即可使用,可以做基金管理完整业务,包括收集整理数据、研究、交易、风控、估值结算等全部都有。”通联数据CEO王政介绍,一家大中型基金公司每年的IT投入至少几千万,甚至上亿,而采取租用集中了多类数据源的平台的形式,“成本至少可以减少一半。”王政曾先后担任彭博资讯研究部经理、巴克莱全球投资公司基金经理、博时基金股票投资部总经理、ETF及量化投资总监等职,作为一名过来人,他深有体会。
此外,智能投研总监向伟表示,传统基金研究员的工作是刀耕火种式的,盯数据、拉研报等等,要花费很高的时间和人力成本。“一个研究员盯一家公司可能不觉得有什么,但假如一次盯三十家就会觉得很累;如果一下要盯一百家甚至五百家呢?这下就抓狂了。但其实这对机器来说是可以批量去做的。”在整个投资研究的过程中,“里面每一个点都可以找出一些原则问题来自动化完成,比如从开始的寻找数据、鉴别数据的真伪性和价值,以及如何从大数据当中精选筛选出一些合情的小数据等。让人来做几个样本给机器学习,比如说采集一些媒体、流量数据,机器学习到这些模板后可以批量去做,把各个品类的数据都采集到。 ”
“所以说,机器的加入不是要取代人,而是提高研究的效率,节省成本。”
让机器学习协助投资研究
然而,在投资研究的过程中,找数据只是完成第一个任务,在接下来的环节中,机器学习又有何用处呢?
比如数据清理完后需要建立模型。向伟称:“建立模型中各家的打法也不一样,所以我们会去市场看看,主要的买方和卖方各家的数据分析方法有哪些?数据做回归、预测和相关性分析一般会有哪些方法?……无论哪家研究所,这些基础工具都差不多,所以我们会做一些原子化的底层数据分析,把更多的自由度留给上层的研究员,让他们去拼接、组合,来相互佐证。”
那这个层面机器能做哪些事呢?“现在我们并不缺idea,而是idea太多,每天都会有各种各样的研报会发表,这就存在了去伪存真的需要。所以,首先机器能够做的是:回测谁才是专家;或者谁擅长建哪一类的模型、应该信任哪一类的模型——机器能够通过回测来进行量化层面的鉴定。”
而完成去伪存真的第一步后,机器开始需要进行一些深度学习知识层面的问题。“举个例子,要对一家卖药的上市公司的业绩进行预判,人分析的过程应该是:卖哪一种药?市场格局大概是怎样?卖得好的地域是哪里?是直销的还是经销?……从各个维度去筛选并拼接。这对机器来说是一件困难的事情,但机器可以学习——它可以解析这些研报当中的语义结构,比如其中什么预判或观点使用了哪一些数据去支撑。这些逻辑关系让人来做几遍给机器看,机器就可以批量解析。然后再配合大型的量化框架,就能知道哪一套分析方法靠谱,或者有足够数据支撑。”
“建立模型这个过程可浅可深,也与研究员的段位相关。 一般机构研究一个基金或者股票,他们会先安排一个助理,让其去看数十篇研报。一个也许比较初阶,而且对行业也不熟悉的助理,在看完数十篇研报之后也能够拿出一篇基本的财务预测报表,只是这个报表预测的方差有可能比较大,需要额外佐证其偏差之处,以及需要微调的幅度大概有多少等问题。而在这个过程中,机器也可以用来解析研报、金融数据和财务类数据,来组织一个逻辑关系,然后像搭积木一样,拼出一个粗略的模型出来。当然这个模型有可能比较有缺陷,但它可以线上和分析师产生交互,让他们观测机器是根据哪一块数据修正了哪一些假设,使得这个预测方差更小。”
再往后就是决策环节,需要去做离线回测,来量化风险和收益。“其实本质是有一个离线价值网络来评价风险。有了这套离线框架的话,就可以每天人在睡觉的时候,机器仍不断地左右互搏进行演练,包括模型选择、参数选择。机器学习做完交易决策后,人要对其进行拟合、复盘等。”
所以说,“相当于这是一个人机交互的过程,在这个过程中人和机器都是互相成长和迭代的。人在机器的配合下可以分析人本身存在的软肋,从而做得比单纯人来做要好。人可以停,机器不可以停,这些就是机器超越人的表现。我们不是说让机器取代人,而是在某些方面可以显著性地超越人脑。”
不过当然,如今人工智能、机器学习技术的发展仍在早期阶段,自然语言处理尚未有质的突破,机器的准确性、鲁棒性(稳健性、强健性)还要克服很多挑战。向伟坦言,这是一个渐进的过程,所以一开始人会干预的多一点,但是随着人工正负反馈积累得越多,机器学习模型的鲁棒性会逐渐增强。
而从风控的角度讲,薛昆称,金融的本质是风控。“我们最终给客户提供的是赢的概率。在这个过程中,无论是基本面分析,还是主动投资,需要关注的是怎么用一套非常成熟的体系来告诉客户其风险归因、业绩归因是什么。也就是说,这套体系可以告诉客户他在赌什么,比如主动投资的组合的基金经理,也可以从风控的角度去看他押注哪些因子、哪些风格;量化投资的基金经理在做研究的过程中,无论是交易前还是交易后,也都可以根据其来审视,包括其中的风险因子有没有风险漂移等事情发生。 ”
“风控体系的好坏在于时间的考验——经历的时间越长就越好。某些特定的资产类别和策略是很难去评估其风险,这也是需要时间去积累的。”
从2C转向2B:人工智能下的资产管理怎么走?
资产管理业的“人工智能+”目前出现两个方向:一个是to B——智能投研,一个是to C——智能投顾。包括国内巨头、初创公司,最初多选择面向C端的服务,但在许多质疑之下,许多尤其是初创公司的智能投顾服务也逐渐显现出强弩之末之势。
“其实两年前我们就开始做to C的智能投顾,但做一段时间后把这个项目暂时停掉了。因为我们觉得中国还没到这个智能投顾的阶段,”薛昆称,智能投顾在美国之所以可行,是因为美国市场的被动化投资已经发展到一定程度,其市场足够有效,因此智能投顾真正不用花很大的成本,只要押注某些因素就可以了,而且这些东西是可以程序化、模型化的。但相比较之下,现在中国还是一个非常非常不有效的市场,而且中国可配置的资产实质上不多。
“现在大家都在讲‘资产荒’,但事实上不是资产荒,而是Beta荒。其实还是有Alpha的,但Alpha的特点是你要找到一些独特的投资机会。”Alpha是指绝对收益,一般是资产管理人通过证券选择和时机选择获得;Beta收益指相对收益,是管理人通过承担系统风险获得的收益。
薛昆表示,“如果服务C端(智能投顾),一定要是在贝塔市场非常好的时候才可以做到,因为那个时候才能规模化。这其实是策略容量的问题,一个策略能够规模化才能服务C端。”
“所以,现在Beta荒的市场上,你要找到一个特别好的资产类别去服务长尾C端的客户,像蚂蚁金服和百度金融的智能投顾服务,他们也会很痛苦,因为没有办法超越金融的本质,他们其实也在寻找各种各样的(Beta)资产。”
回到前面,怎么找到这些产生Alpha的投资机会呢?薛昆补充道:“量化投资中有一个叫时间因素的东西,即当市场有了些赚钱的信号,但这些信号不是在每一个市场环境都可以工作,面对这种情况,先验的知识大部分都在基金经理的大脑里,看行业数据的时候自己脑袋里会有这样一些模型——什么时候该用什么信号来构建组合并做调整。那这些基金经理的知识能不能由机器来学习呢?现在的结论是可以的。但前提是,你要有赚钱的信号。这就是为什么说到技术要跟非常专业的框架在一起工作。这些信号有些是来自于基本面,或者大数据。”举个例子,如果要预测一个港口的出货量,传统的方法需要统计学统计概率来预测,但是机器就可以直接调用卫星图等数据。
“这些非结构的数据都可以转化成结构化的数据,快数据可以预测慢数据,机器也可以快人一步地做一些预测性的事情。从这些数据当中提取出来的信号会成为Manager Alpha的来源。”
“所以,在人工智能推进传统资管业进步的角度上,我们的做法是帮助基金经理在基本面分析或量化这一过程找到Alpha,在资产端创新。因为从策略的角度看市场是轮动的,可能今年上半年做Alpha的人不太好做,反而做CTA的活得很滋润,那在这一个领域我们实质上是创造一个能够让客户能够很快找到市场上什么策略才是有用的。”
雷锋网原创文章,未经授权禁止转载。详情见转载须知。