加入收藏 | 设为首页 |

朗读者-机器学习技能可以有用用于选股吗?(上)

海外新闻 时间: 浏览:376 次

未经授权,禁止转载

前语

译者翻译了一篇评论机器学习在量化出资中运用的文章。机器学习在量化金融中是一个日渐重要且充溢争议的论题。关于机器学习是否能成为一个有用的出资东西的争辩一向存在。尽管机器学习算法能够发现奇妙且非线性的联系,从充溢噪音的历史数据中提取信息或许会遭受过拟合的问题。在这篇文章中,作者描绘了一些关于机器学习的根本概念而且供给了一个简略的比如,来描绘出资者怎么用机器学习技能来猜测横截面股票收益,一起约束过拟合的危险。

许多量化因子模型在2008年的金融危机后就堕入挣扎,许多传统因子不再盈余。成果,一些商场参与者开端重视传统量化选股办法之外的办法。跟着盛行的因子不再牢靠,许多从业者开端开发能够从曩朗读者-机器学习技能可以有用用于选股吗?(上)昔数据中动态学习的模型。但是,动态模型和因子择时办法相同遭受一些批判(如Asness(2016))。许多年来,出资者一向运用计量经济学办法(如回归),但是很少人能够单纯依托以回归为根底的动态模型成功。这也许是由于金融数据天然生成便是充溢噪音的,因子可所以共线性的,因子和收益的联系也是可变的、非线性的或是与语境相关的。这些特色使得线性回归模型很难去猜测潜在因子和预期收益之间的动态联系。

咱们信任机器学习算法能够供给更好的办法。这些技能现已呈现许多年了。事实上,Frank Rosenblatt在1957年就发明晰Perceptron,一种能够分类相片的神经网络。在之后的几十年中,一系列的开展使得机器学习在实践中的运用变为或许:

从1970年代以来,核算机才干大致依据摩尔定律进步

数据的来历指数式添加,存储本钱大幅度下降。

核算机科学中和计算学中的新技能,加上进步的核算才干和数据来历,带来了强力的新算法。

机器学习算法现已证明晰自己在许多金融之外的范畴比传统计算办法更有用,像语音辨认、图画辨认和引荐算法。深度学习算法现在在图画分类的使命上现已超越了人类的精确度。一个叫做Deep Blue的机器学习算法在1997年第一次打败了最好的人类棋手卡斯帕罗夫。它用暴力核算来评价上千种或许的走法和对手的应对。最近,一个叫做AlphaZero的深度学习神经网络运用办法辨认技能成为了国际国际象棋冠军。不像预先编程来评价不同走法价值的Deep Blue,AlphaZero没有收到任何范畴的常识,而是经过自己与自己下只是4小时的棋来自我教育成为象棋大师。

机器学习是什么

机器学习是一类办法和算法的总称,它答应机器在没有清晰的编程指令的状况下发现办法。在选股的状况中,建模者供给一系列或许会猜测未来收益的因子而且用机器学习算法来学习哪些因子有用而且与未来收益相关。机器学习能够结合许多弱的信息源,生成一个结合的出资信号,这个出资信号能够比任何一个来历都要强。

最近几年,核算机科学家和计算学家开展并改进了几种机器学习算法,如梯度进步回归树、人工神经网络、随机森立和支撑向量机(见表1)。这些算法大部分有两个重要的性质:

1、它们能够发现杂乱的办法和躲藏的联系,包含一般很难或不或许用线性剖析检测出的非线性和上下文联系。

2、在存在多重共线性的状况下,它们一般比线性回归更有用。

尽管关于机器学习在金融中的研讨适当活泼,许多文章重视特定算法的运用。Wang S.和Luo(2012)供给了一个运用AdaBoost算法猜测股票收益的朗读者-机器学习技能可以有用用于选股吗?(上)一个详细描绘。Batres-Estrada(2015)、Takeuchi和Lee(2013)探究了怎么运用深度学习猜测金融时刻序列。Anon(2016)运用树模型来猜测出资组合收益。Wang和Luo(2014)提出结合不同练习窗口的猜测是有用的。Heaton,Polson和Witte(2016)评论了深度学习在smart indexing中的运用。Alberg和Lipton(2017)提出应该猜测公司根本面数据,而不是收益,由于猜测根本面的信噪比更高,能够运用更杂乱的机器学习模型。

一些文章研讨了非线性模型对因子收益择时的长处。Miller等(2013)和Miller等(2015)发现分类树在猜测因子收益时比线性回归更有用。他们相同证明结合线性和非线性模型能够愈加有用。更进一步,他们证明将这些因子猜测归入横截面模型能够胜过静态因子模型。咱们在本文中有类似的定论,但咱们运用了不同的办法。咱们不清晰猜测单变量多空因子出资组合的报答,而是运用横截面因子得分(特征)来猜测报答的横截面。

Gu,Kelly和Xiu(2018)检测了机器学习技能在财物定价范畴中的成效。作者运用许多的企业数据和微观变量来猜测个股收益。由于他们运用总报答,而不是商场超量收益作为自变量,他们联合猜测了预期收益和股权溢价的横截面。他们研讨了不同的机器学习办法的体现,并发现与OLS回归比较,非线性估量器能够明显进步精度。他们将改进归因于机器学习模型提醒非线性办法的才干以及它们对多线性猜测方针的鲁棒性。尽管咱们的定论类似,咱们只重视与股票危险溢价无关的横截面收益。因而,咱们仅运用个股特征并扫除微观变量。咱们信任这种办法能够下降噪音和过度拟合的危险。与Gu,Kelly和Xiu(2018)相同,咱们发现许多机器学习算法体现比线性回归更好,但咱们不重视单个算法的体现,咱们着重了结合不同算法和练习窗口生成猜测的长处。咱们发现猜测组合在美国和其他区域都优于组合中的单个猜测。

本文的首要奉献有:(1)评论特征工程和从业者在运用机器学习模型进行选股时面对的一些问题;(2)展现运用这些技能时猜测组合的长处。咱们特别着重了将不同算法和练习窗口的猜测结合起来的多样化优势。

过拟合的危险

当模型选取了噪音而不是信号时,过拟合就会发作。过拟合的模型在样本内体现很好,但是在样本外的猜测才干很差。尽管机器学习技能能够发现历史数据中的纤细特征,但过拟合仍是其面对的一个首要问题。练习一个算法时,找出样本内和样本外都存在的特征是很重要的。因子和收益的联系一般充溢噪音,而且存在着许多潜在的因子,进步了问题的杂乱性。比较之下,许多其他机器学习的运用,例如图画辨认,具有更高的信噪比。例如,一些图画分类使命具有低于1%的过错率(例如,对狗与猫进行分类)。

由于猜测股票收益的低信噪比,避免过拟合变得尤为重要。图1展现了梯度增强回归树分类器的样本内和样本外的过错率,分类器在模拟出的噪音数据上练习。X轴展现了增强迭代次数(更多的迭代次数答应算法更好地拟合曩昔数据),Y轴展现过错率。深色线为样本内,淡色线展现了样本外的体现。样本内的差错总是低于样本外收益。当咱们进步迭代次数时,样本内的差错下降而且在迭代次数大于400之后变得微乎其微。与之截然相反,样本外的过错率一开端下降,但在大约50次迭代之后开端上升,这意味着算法开端关于历史数据过拟合。

这个模拟出的比如相关于猜测股票收益有着更低的信噪比,在这种状况下,样本外的成果会更快违背样本内。

这个比如展现了在评价练习集上的猜测体现时会遇到的危险:过拟合能够使练习集上的成果比它们在实践运用中的成果更美观。接下来咱们评论两种能够下降这种危险的办法:结合猜测和特征工程。

(1)猜测结合

许多成功的机器学习算法是依靠bagging(如随机森林)或boosting(AdaBoost)的集成学习算法。这些算法从弱分类器生成许多猜测,而且将这些猜测结合,生成一个更强的分类器。Dropout(见表1与Srivastava和Hinton(2014)),一个相关的用于避免神经网络中过拟贵港合的东西,相同运用了模型均匀的概念。咱们信任咱们经过结合不同类型的算法和练习集能够到达更好的多样性。假如许多不同的算法,在许多不同的练习集上练习,都发现了类似的办法并到达类似定论,咱们更有理由信任这个猜测是稳健的,而不是过拟合的成果。

结合不同猜测的成效现已被计算学文献广泛记载。Clemen(1989)早在1989年就对猜测组合的实证依据做出了总结:“成果几乎是共同的:结合多个猜测会添加猜测准确性......在许多状况下,只需均匀猜测,就能够明显改进功能。”(p137)Makridakis和Hibon(2000)在对猜测3003个不一起间序列的竞赛剖析中标明,猜测组合一般优于最佳成分猜测。Timmermann(2006)供给了一个用于确认何时猜测结合更或许有用的结构。即当不同的猜测器运用不朗读者-机器学习技能可以有用用于选股吗?(上)同的数据和/或技能时,猜测差错相对不相关。在这些状况中,猜测组合能够供给更多的信息和更少的噪音。

当然,传统的多因子模型现已包含了多种猜测,由于每个因子都意味着一个共同的猜测。但是,此处引荐的办法将这个概念更进一步,包含了许多不同的猜测办法和练习集,还有许多的因子。

咱们能够经过几个方面完成更好的猜测多样性:

结合不同类型算法的猜测:许多机器学习算法,特别是集成算法(如随机森林),现已运用猜测的结合来得到更好的成果。经过结合不同类型的算法,咱们应该能够检测到特征和分类之间不同类型的联系。

结合不同练习窗口的猜测:不同练习窗口的猜测能够捉住不同的商场状况而且常常有着低相关性。窗口能够在时刻,时节或条件的根底上界说。结合不同练习窗口的猜测相同能够削减猜测方差,潜在地进步危险调整收益。

结合不同视界的猜测:不同的因子在不同的时刻视界上体现不同。举个比如:根本面因子在长时刻上更重要,而短期银子在短期更具猜测才干。

(2)特征工程

特征工程运用相关范畴常识来构建问题,以便更适宜机器学习处理方案。它需求适当多的专业常识,而且或许很困难且耗时,但它关于开发牢靠的猜测也是必不行少的。特征工程确认咱们终究要求算法处理哪些问题,以及咱们运用哪些算法来处理它们。这是克服过拟合的最有用办法之一,由于它答应咱们在练习算法之前进步信噪比。

特征工程需求相关范畴的常识。在选股的布景下,这能够包含比如以下决议计划:咱们企图猜测什么;哪种算法或许是最有用的; 哪些练习窗口或许是最有用的; 咱们应该怎么规范要素和报答; 哪些因子或许供给有价值的信息。

下面咱们将扼要评论其间的一些问题。方针是供给概述而不是全面的评论。这些决议计划的或许改变与金融建模者的想象力和专业常识相同具有重要意义。但是终究,这些决议计划的质量将决议尽力的成功。

咱们在猜测什么?

练习机器学习算法最好用离散变量,这样能够约束异常值的影响。不像运用线性回归猜测报答,MLA一般会猜测类别,即体现优异者与体现欠安者,这样噪音会少一些。用户或许还期望运用第三类(例如商场体现者)或乃至更多类别来反映不同的体现水平,但每个新类别都会添加过度拟合的危险,而且它或许为与股票收益相同充溢噪音的数据供给很少额定的准确性。

第二个决议触及怎么界说这些类别。假如咱们对收益的横截面感兴趣,咱们将经过在练习会集的每个日期将股票排名为体现优异者和体现欠安者来界说类别。咱们还能够在职业或职业中界说这些类别以下降噪音。一般主张将这也因子规范化为类似的办法。大部分出资者期望收益能超越危险,所以一个自但是然界说体现品种的办法是运用危险调整收益。这或许包含简略的的动摇率调整收益,或许相关于危险模型的alpha,例如CAPM,Carhatt(1997)四因子模型,Fama和French(2017)的五因子模型,或许Mozorov,Wang和Borda(2012)描绘的MSCI-Barra模型。运用危险调整收益能够进步信噪比,因而能够在时刻和商场区分上供给更好的猜测。

第三个决议触及猜测的视界规模。挑选猜测的规模意味着为这个视界规模优化。短的猜测视界更适宜低容量高换手的战略,而长的猜测视界适宜高容量低换手的战略。短的猜测视界相同意味着更多的练习区间,这能够协助咱们从充溢噪音的数据中发现奇妙的办法。猜测的视界规模相同反映了因子的频率。关于大部分选股的状况,一个适宜的猜测规模是从日度到季度。

咱们应该运用哪些算法

维基百朗读者-机器学习技能可以有用用于选股吗?(上)科列出了100多种机器学习办法,而且这个数量一向在添加。机器学习是一个飞速开展的范畴,评论这些许多不同算法的优缺点远远超出了本文的规模。但是,更一般地,咱们期望咱们的终究猜测运用各种不同的技能来结合各种不同的算法。咱们事前不或许知道收益和特征之间的切当联系。结合不同类算法的猜测能够避免过错辨认。这在处理金融数据时尤为重要:金融数据信噪比低,而且很难经过经历来辨认有高度确认性的联系。

集成算法在金融和其他范畴都有着光亮的出路。经过等权猜测(bagging)或许准确率加权猜测(boosting)它们将弱的分类器结组成一个强的分类器。这个强的分类器会比任何一个组成它的弱分类器体现更好。Boosting和bagging都能够处理一切监督学习遇到的差错与方差的权衡问题。当估量办法不能有用地捕获数据中的根本联系(欠拟合)时,会引起差错。方差是由练习会集的细小改变引起的差错,这意味着估量量不会学习推行样本外的联系(过拟合)。

Bagging独登时在随机的练习集子样本上拟合每个分类器,如决议计划树(弱分类器)。每个弱分类器都是过拟合的,但当把这些弱分类器结组成强分类器时,过拟合带来的差错会减小。Boosting次序拟合练习集上的估量量,并在接连的推动次序中给予过错分类调查更多权重(拜见Schapire(1990))。强分类器是弱分类器的准确度加权均匀。经过给予更好的分类器更大权重,boosting能够下降差错。但是,假如咱们让boosting给了成功分类器过大权重,会有更大的方差。由于这个权衡,boosting算法会需求比bagging更细心的参数调整,而且关于选股,保存学习率在样本外体现更好。许多boosting算法需求更长时刻去练习,由于它们有必要序列运转,而bagging算法能够并行运转。

Boosting和Bagging集成算法能够运用不同的根底算法作为弱分类器。不同的算法能够捕捉数据中的不同特征。有些算法是相对的简略和线性,而别的一些算法或许十分杂乱,或许发现高度非线性联系。此外,尽管咱们常常想要捕捉杂乱性,但更杂乱的算法一般需求更高的信噪比和/或更多的练习数据才干有用朗读者-机器学习技能可以有用用于选股吗?(上)地学习。经过运用多种算法和办法,咱们期望简略和杂乱的联系都能捕捉到,一起最大极限地下降过度拟合的危险。

更一般地说,建模者应当重视哪些现已被证明适宜噪音数据,而且长处和缺点都很清晰的算法。在实践运用中,运用软件供给的算法也是一个好主意,这些算法现已在不同的运用中测试过。但是,现成的算法不经过调参不太或许是适宜的。由于股票数据的信噪比往往很低

挑选时,一般需求以严峻约束算法过度拟合的办法来参数化算法。与一切出资战略相同,不用优化样本中的模型。感兴趣的读者能够参阅de Prado(2018)中的一个深化处理金融数据的穿插验证。

咱们应该运用什么样的练习窗口?

一般来讲,咱们想运用或许代表预期未来环境的数据来练习机器学习算法。举个比如,咱们或许期望运用如下的练习集:最近的,有着类似微观经济状况的(如估值水平、流动性状况或添加动态)或发作在一年中相一起段的(为了捕捉时节性)。相反地,假如咱们对预期的未来环境不确认,咱们会期望用最大、最长且最广的数据集来捕捉不同的环境。但是,这种办法将需求更长的运转时刻而且或许无法捕获特定时段的办法。

另一个考虑要素是办法的横截面改变。例如,假如咱们以为不同区域或职业将体现出因子和收益之间的不同联系,咱们期望如此对这些不同区域或职业的数据进行独自练习。相反,当咱们使练习集过于细化时,过度拟合的危险会添加。举个比如,为美国股票和日本股票别离设置练习集或许是有意义的,但对美国科技股与日本轿车股票别离设置练习集或许是没有必要的。

咱们应该包含哪些因子?

相关范畴常识关于挑选因子和构建它们以进步信噪比至关重要。为了最大极限地削减运转时刻并约束过度拟合,从业者应该只对算法供给或许与未来股票收益相关朗读者-机器学习技能可以有用用于选股吗?(上)的数据。这些包含与未来经济相关的因子(根本面因子)以及与未来供需相关的要素(技能因子)。 由于机器学习算法一般十分拿手处理共线数据,所以假如不确认哪些是最相关的,从业者当然能够包含许多类似的因子,尽管类似因子或许会会添加运转时刻。

相关范畴常识相同能够协助咱们构建数据以取得最大的信噪比。举个比如,假如咱们的方针是选股,而不是挑选职业,咱们应该相应地调整数据。关于许多因子来说,强行使其职业中功能够下降方差而且不会明显下降因子均匀收益。

关于大数据

机器学习算法以其从大数据中提取信号的才干而出名,例如从文本中检测心情,或经过交际媒体猜测未来出售。尽管这些肯定是机器学习算法的有出路的运用,但它们并不是本文的要点。相反,咱们的方针是展现怎么使MLA比较传统的定量技能更有用。

后续

在接下来的文章中,作者依据上述剖析,供给了一个简略的比如,来描绘出资者怎么用机器学习技能来猜测横截面股票收益,一起经过文章中说到的办法来约束过拟合的危险。