蒋龙:人工智能、大数据助力科学投资
2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
6月30日下午,在金融科技专场上,通联数据首席科学家蒋龙分享了题为《人工智能和大数据助力科学投资》演讲。
以下是演讲原文,雷锋网作了不改变原意的编辑:
加速发展的大数据时代
今天的主题是金融科技,金融科技是非常广的领域,有信贷、支付、证券、保险等,我要谈的是金融的子领域,就是资产管理领域。
资产管理,简单说就是如何更好地配置人类所积累下来的财富,使得社会能够更快进步,能为人类产生更多价值。我们怎么用最好的手段管理财富,比如说把这些钱应该投向什么行业,投向什么技术,让谁来引导这些钱,让财富更快增长,这是一个巨大的挑战,在这个挑战背后,我们看到人工智能和大数据可以给我们带来很大的助力。
说到投资大家可能会立马想到股票、基金,有些人想到风险投资,有的人可能会想到投资大宗商品,有的人可能想到做一些收藏品,这些都是投资,投资的种类很多,但是投资的核心是预测,基于拿到的各种数据去挖掘规律,根据规律对未来做出判断,判断可能是这个人未来可能会成就一番大事业,所以投资他的初创企业,或者你预测到了人们的消费趋势在变化,你看到变化能够知道某些行业未来会受益,你把资源投资这些行业,这些都是基于预测的投资。
所以信息通讯和计算技术对于投资领域的影响一直以来非常巨大,70年代开始诞生指数基金,由人管理钱变成计算机自动管理钱。截至2017年,在北美市场上,指数和量化基金的规模第一次超过了人主动管理的规模,已经成为主流。随着互联网带来的数据量的变化,随着计算机在数据分析上的能力的提升,渐渐的我们有办法去对资产的收益和风险进行一些分析预测,所以我们可以做一些量化对冲,把我们知道的信息变现,对冲所有风险。随着大数据人工智能的发展,现在有更多的投资科技的名词诞生,比如说智能投顾、智能投研等等。
当今投资科技的要素有三个——专业投资理解、大数据和人工智能。为什么第一个是专业投资理解?几年前美国有一个博士生做过一个实验,他分析了世界上各种各样的数据,后来他发现孟加拉的黄油价格跟标普的走势非常想象,他用过去十年的数据证明了这两个基本上可以完全的拟合,但是这只是偶然拟合,你不可能拿孟加拉的黄油价格去预测接下来标普500的走势。因为世界上的数据实在太多了,任何一个数据都可能发现偶然相似的事情,在机器学习领域我们经常说过拟合,怎么控制过拟合?如果有足够多的数据,可以通过数据自动解决,但是没有的情况下,我们需要有先验支持,有了投资科技,我们开始把投资变成一种科学化,大家都知道投资大师巴菲特有投资艺术,艺术的东西只会意会不可言传,无法把投资逻辑复制出来,没办法去得到同样的投资结果,也没有办法去历史上去做实验,投资好在哪里,弱点在哪里,这就不是科学。有了大数据,人工智能、量化科技,我们有可能把投资作为科学,可以重复实验分析投资里面的策略问题,能够更有效的提升。
投资科技场景
人工智能和大数据在投资里面的应用非常广泛,我这里列举了几个比较重要的场景。
第一个叫投资研究,投资研究的目的是把信息进行加工,从里面得出投资决策,现在是信息爆炸的时代,如何挖掘信息,人脑已经渐渐发觉很有挑战,需要AI帮我们,这里还有非结构化的数据处理,像图象信息、自然语言文本信息、音频数据等等,有了这些信息之后,我们如何发掘规律,人脑可以处理一些变量不太复杂的,如果一百个一千个变量的话,人脑基本无能为力,这时候如何通过AI来帮我们完成在海量变量下的投资预测。在得到投资决策之后,我们需要通过交易来实现决策,如何更低成本的去进行交易,每天有很多人在股票市场交易,你怎么保证最低成本,对市场是造成最小冲击的,这里基于博弈论的机器学习的方法正在实现价值,包括风控,投资的时候如何控制风险。另外是投资服务,也是新的领域,有了投资能力之后,最终是要为人类服务的,不管是为个人还是企业,怎么样让我们的服务变得更高效,智能投顾是一个非常大的创新。
我们生处在一个加速发展的大数据时代,每隔几年数据就要十倍的增长,并且指数提升。大数据背后我们知道有数据采集能力,像智能硬件这方面的进步,也有计算机处理的能力进步,更多的是场景,有了这个技术,有了场景,有了闭环,导致数据像滚雪球一样越来越大,这样的数据对投资来讲可以分成三大类,一种是客观世界的数据,比如说可以通过卫星来观察地球发生什么变化,也可以通过微博去观测人们表达出来的主观想法,从主观世界了解人们的想法,我们也有移动支付,有很多的交易,有些企业里面的工业生产的资料,让我们发现一些关系的变化,比如说钱怎么从一方到另外一方,这三种变化可以让我们对世界观察非常细致彻底,而且非常及时,对投资来说这非常重要。
这里我们可以看一个例子,如何利用客观世界的数据帮助我们做宏观预测。我这里引用了去年美国国家经济研究中心的一篇文章,这篇文章的标题很有吸引力,“中国的GDP增速可能被低估了”,大家都知道西方经济学对中国的增长不是那么信任,尤其是统计局的数据,但他们有自己的方法研究,他们会利用一些另类数据,比如说灯光数据,大家可以看到图上右上角的图片,是美国军用卫星拍摄的北京和天津地区夜晚灯光情况,利用同样类似数据,美国这些经济学家发现在98年亚洲金融危机之后,亚洲各个国家的经济恢复速度和夜晚灯光变化有关系,通过这种方式来预测中国,发现中国过去几十年的GDP增长,可能比我们公布出来的还要高,所以我们不是高估,而是低估了自己,他们估计可能是中国缺乏对第三产业准确预估的能力。
右下角是我们的实践,我们去网站上也下载了中国各个省自治区夜晚灯光的图片,我们做了分析,发现人均GDP和人均单位面积灯光强度是有非常大的关系,同样的还有很多的自然信息可以利用,比如说有些公司会分析各个地区空气污染物的成分和比例,来分析当地的能耗,从能耗里面反映GDP增长,还有人利用卫星图片观察农作物的生产情况,预测接下来GDP的发展情况。除了客观世界,主观世界,还有很多东西来预测。
NLP与非结构化数据处理
如果我们要做投资,会面对海量数据,比如一个国内投资者每天会面临上千篇的上市公司公告、上万篇的财经和行业的重要信息,还有数以千万计的投资者和社交媒体发布的消息,这些肯定是处理不过来的,这时候就要借助于AI来帮助我们分析。这里分享一个简单例子,怎么样从上市公司发布的公告去提取信息,判断公告是否重要,下面是一篇公司发布的重大合同公告,用自然语言方式描述了合同签订双方和金额等等,通过自然语言提取的技术,能把这里的关键信息,比如说甲方、乙方、合同金额提取出来,提取之后,根据金额和这个企业过去的情况去判断这些信息是否重要,再结合关系图谱去识别这两个关系是否存在潜在关联信息等等,这都是我们做结构化处理的重要帮助。
机器学习构建非线性策略
刚才提到量化管理已经超过主动管理,成为最主要的投资策略,传统量化是线性模型或者说多因子模型,多因子模型是把一个资产的收益分解成很多因子收益的求和,但是现实生活中太多因子,其实并不是线性关系。比如左边的图是二次关系,用传统基于IC的方法或者做多做空的方法,很难找到有效的因子,机器学习发展给了我们这样的机会,机器学习在对非线性模型的研究上有很多的积累,我们可以利用这样的知识去发掘信息中的非线性关系,帮助我们预测未来资产的收益。
这是我们利用深度学习做的宏观预测,我们用了很多的经济变量,比如衡量供给方面、需求方面,衡量人们信息方面,货币方面的指标,结合隐藏层的模型做一个预测,预测目标是市场的主要指数,比如债的指数,大宗商品的指数,股票的指数,基于这样的指数可以做宏观的资产配置和套利。
这是对一个公司的预测,利用机器学习数据,可以像研究员一样去分析公司的业务,去预测分析影响公司核心的指标,最终得出营收的预测。这个图我们是以航空公司为例,一步一步按照人的逻辑去分析收入和成本情况,最后会发现一些重要指标,比如说客座率是非常影响公司财务数据的,这样的指标如何预测,其实我们可以用一些方法,利用人均GDP的增长,利用航线数,利用铁路运输情况、机场拥堵度等等数据去预测每个航空公司的客座率,再把这些数据综合起来去预测航空公司未来几个月甚至几年财务的情况。
从我们自己做的一些实验结果来看,在预测主营收入上,机器人分析的准确率比人要做得更好,而且对于不同行业来说,有80%以上的行业都比人做得好,在美国的一些研究得到同样结论,美国的一些公司也做了对美股研究,发现用机器学习研究的平均误差是22%,但是人工分析师是30%的误差。
除了在预测营收,预测关键财务数字外,交易上机器学习也能帮助我们很多,像阿尔法狗用的是强化学习技术,面临的场景和交易是一样的,都需要在动态博弈的环境里观察对手的行为,做出自己的判断。在强化学习之前,大家更多的是用传统的,用过去交易量的数据来估计未来的交易量,现在可以利用强化学习,利用更细致的盘口数据来预测,根据研究,这样比传统做法降低27-35%的交易成本。
智能投顾
最后想分享一点关于智能投顾,这也是过去非常热的概念,它的想法很好,世界上有很多人都需要财务顾问,但是人工顾问的成本非常高,所以绝大部分享受不到这样的服务,当我们有了机器人这样的智能能力之后,我们有机会把顾问服务成本降得很低,让金融的好处能够被更多的人享受到。北美地区的智能投顾更多集中在根据用户的风险和投资期限来推荐资产配置组合,根据我们的研究,中国人还是不太愿意做更长线的投资,这需要教育,中国人很喜欢去股市上交易,散户非常多,怎么帮助中国散户做股票交易,我们就把同样的能力用在这个领域,我们去分析每个用户的交易,流水,我们分析他们在什么地方犯过错误,有的是对市场大盘的预测做得不好,导致仓位有很大亏损,我们分析了这样的问题之后,可以针对性的提供一些帮助,比如可以提供一些智能化的方法,智能化的仓位控制、智能化的止盈止损提醒等等,这样可以帮助投资者改进弱点。
来源:腾讯科技