您好、欢迎来到现金彩票网!
当前位置:PC蛋蛋 > 最优凸分解 >

建投金工专题49:逻辑数据挖掘传统回归方法深度剖析(OLS、RIDGE

发布时间:2019-07-25 20:30 来源:未知 编辑:admin

  数据挖掘,传统回归方法深度剖析(OLS、RIDGE、ENET、LASSO、SCAD、MCP、分位数回归)

  AlphaGo Zero的成功,让“人工智能+”的概念深入人心。复杂度较高的数据挖掘算法有效的前提是问题一定有确定解(即使模型范式非常复杂),同时要求数据的“质”和“量”达到一定要求。在量化投资应用中,数据质量一般(共线性、滞后性、信噪比低等)、数据量不够大(宏观经济数据等)的时候,强行套用黑箱模型,不仅模型的解释性差、参数敏感,而且非常容易出现过拟合。针对基本面的数据,具有强有力理论支撑的传统统计方法依然表现出了较好的性能。基于以上,我们推出温故知新系列专题,重新梳理部分传统统计方法的理论基础和适用范围。

  线性回归因自变量共线性、实际分布厚尾、存在离群点等问题,OLS回归预测总误差较大。本文基于针对预测总误差的“偏差—方差”分解,分析了估计误差来源。介绍了弹性网族回归(Lasso、ENet、Ridge)、非凸惩罚函数回归(SCAD、MCP)、分位数回归的差异与效果,通过控制模型方差和偏差,最终降低模型预测总误差,相对于OLS回归,显著提升变量选择能力和预测的稳健性。

  Ridge回归唯一有显示解,计算简单;ENet、Lasso、SCAD、MCP回归均能将较小系数压缩至0,且选择性压缩共线性变量中的一个。Lasso、SCAD、MCP回归方法的变量选择最有效,样本外的预测效果最佳。Lasso目标函数为凸易计算,压缩无关变量系数为0,鲁棒性佳,尤其实用。SCAD满足渐近无偏性,但计算复杂。本文针对样本数量为100和1000的数据进行了数值模型,比较了不同方法的变量选择能力、拟合效果和估计误差。

  分位数回归不考虑同方差、正态的假设,具备异常点耐抗性,捕捉分布尾部特征等特点,比OLS回归更稳健;不仅仅分析被解释变量的条件期望,亦可分析被解释变量的中位数、分位数情况。

  不同时期长债利率的直接影响因子不同。2008-2012年国内核心影响变量是经济,2013年的钱荒直接基本面因素影响较小,2014年之后利率更多受到海外利率的影响。本文以Lasso回归为例,我们滚动计算了经济、通胀及国外利率和十年期国债收益率月度环差48个月数据对国内长债利率的影响。

  从传统概率统计方法、机器学习到深度学习,人工智能算法受到了越来越多的关注。特别是AlphaGo Zero的成功,让“人工智能+”的概念深入人心。在量化投资领域,越来越多的机构,将研究精力放在了更前沿的强学习算法中。

  复杂度较高的数据挖掘算法有效的前提是问题一定有确定解(即使模型范式非常复杂)。同时要求数据的“质”和“量”达到一定要求。这两点在金融基本面数据上是很难严格满足的。

  以多因子模型为例,同期的基本面数据(实际投资无法获得)明显会比滞后的财报数据表现更好,这就是数据质量的局限;即使上市公司财务数据及行业基本面数据量较大,但仍未到“大数据”的层面。另外,这些数据本身噪声非常大。在实际应用中,我们发现在数据质量一般(共线性、滞后性等)、数据量不够大(宏观经济数据等)的时候,强行套用黑箱模型,不仅模型的解释性差,而且非常容易出现过拟合。针对相同样本,训练不同次抽样的同一样本数据,可能得到截然不同的参数估计和计算结果。因此,我们机器学习方法的未来依然是走向更为高频的数据,适合应用于舆情分析、高频交易等数据量足够大的情境中。

  尽管深度学习算法在图像识别,语音识别等领域取得了惊人的效果,但是在理论方面依然缺少强有力的数学证明和大样本性质。针对一些基本面的数据,具有强有力理论支撑的传统统计方法,如线性模型依然表现出了较好的性能。基于以上考虑,我们推出温故知新系列专题,重新梳理部分传统的统计方法的理论基础和适用范围,本文是该系列的第一篇,从基于“偏差-方差”的目标误差分解入手,比较Ridge、ENet、Lasso、SCAD、MCP回归等方法的差异和适用范围,温故而知新。

  预测值相对真实值的误差是考量预测模型优劣的主要目标函数。Hastie、Tibshirani、Friedman通过对模型预测总误差进行“偏差—方差”的分解(Bias-Variance Decomposition),控制预测总误差的来源,最终降低模型预测总误差,提高模型预测的精度。在实际的线性模型参数估计问题中,传统的最小二乘估计(OLS,Ordinary Least Square)存在缺陷,我们从“偏差—方差”角度提出若干模型估计方法来降低模型预测总误差,提高模型预测的精确性。

  给定模型,期望降低模型总误差Err,提高预测精确度,必须降低模型的偏差和方差,但这两者不能同时满足。如图3所示,一般而言,解释变量少,模型复杂度偏低时,方差较小,训练数据的扰动不足以降低总误差,偏差主导了预测总误差,此时容易发生欠拟合;随解释变量的增多,模型复杂度变大,模型的拟合能力变强,方差主导了模型预测的总误差,训练数据微扰动也会导致总误差发生显著变化,此时容易发生过拟合。例如,当线性模型中逐渐添加多项式项时,模型复杂度增加,模型预测偏差越来越低,但多项式的加入,导致误差是多项式增长的,从而拟合模型的方差也会变大。所以,为了得到最优的模型,必须平衡模型的偏差和方差。

  带惩罚函数的估计均是二次损失函数,对残差有同方差、正态分布的假设,而现实数据中,存在厚尾或有离群点情形,基于最小二乘回归的估计系数方差并不一定是最小的,其稳健性较差,从而引入了分位数回归(Quantile Regression)。

  2005年,Zou和Hastie基于Ridge回归和Lasso回归,提出ENet回归,它是一种牺牲回归系数无偏性,达到降低回归系数方差,最终降低模型预测总误差的回归方式之一。惩罚函数为:

  同样的可以知道,Ridge回归和Lasso回归也有等价的带限制最小二乘回归形式。三种回归方式均是凸集限制域,且对于某些M,Ridge回归对回归系数β的限制最宽松,Lasso回归限制最严格,ENet回归处于两者之间。

  对于线性回归模型,当残差ε假设不满足,如表现厚尾或有离群点时,上述基于最小二乘回归估计系数的方差较大,从而模型预测总误差较大,结果不稳健;另一方面,上述回归只能得到一条回归曲线,所提供的信息有限。

  为了弥补最小二乘回归的缺陷,Koenker和Bassett于1978年提出了分位数回归(Quantile Regression)。分位数回归能够捕捉分布的尾部特征,例如出现左偏或右偏的情况时,它能更加全面的刻画分布的特征,而且其分位数回归系数估计比OLS回归系数估计更稳健。并随着计算机技术的不断突破,分位数回归成为了经济、医学、教育等领域的常用分析工具。

  相对OLS回归,分位数回归采用加权残差绝对值之和的方法估计参数有如下几个优点:(1)它对模型中的随机扰动项不需做任何分布的假定,这样整个回归模型就具有很强的稳健性;(2)分位数回归本身没有使用一个连接函数来描述因变量的均值和方差的相互关系,因此分位数回归有着比较好的弹性性质;(3)分位数回归由于是对所有分位数进行回归,因此对于数据中出现的异常点具有耐抗性;(4)分位数回归估计出来的参数具有在大样本理论下的渐进优良性。

  样本n=100 时,不同回归方法随的变化,回归系数的变化路径如图9、图10所示。对应的样本协方差矩阵为Sigma(样本),与理论的样本协方差矩阵Sigma相差不大。

  另外,容易发现,当λ非常小时(图像最右边),惩罚力度非常小,此时的估计类似OLS,回归系数均不为0。重要变量更接近真实值,但非重要变量均不为0,即没有压缩效果。

  值得指出的是,样本协方差矩阵Sigma(样本)与Sigma相差不大,从而模拟结果比较符合理论结果。在模拟过程中,我们发现,如果Sigma(样本)与Sigma相差较大时,会导致结果完全不符合理论结果,如无法压缩非重要变量为0。这启示我们,在实际使用这些模型时,对样本的协方差矩阵的检验是十分重要的。

  取λ=1.00,我们对样本数n=100,n=1000时,进行样本内的模型训练,并分别增加20个样本和200个样本用于样本外预测,进行500次模拟,以评估这些回归方法对样本个数和输入样本X的稳健性。表3列举多次回归模拟的评价指标。

  需要指出,上述结论对回归方程的形式是稳健的,即我们选取不同回归方程,如系数为(5,-4,5,-4,6,0.05,0,0)等,所有结论均是成立的。也就是说,回归方法对不同方程具有良好的适应性。

  通过上述模拟过程,我们可以利用不同回归方法的特性,根据实际需要进行方法选择;但选择上述回归方法时,对样本的处理、调整参数λ 的选择上需要十分注意。

  考虑的回归问题涉及变量过多、共线性强时,我们可以选择变量选择作用强,预测效果好的SCAD、Lasso、MCP回归,而且因为Lasso在算法实现上简单有效,建议优先使用Lasso。但注意此时的回归结果中,对于高度相关的变量有选择性压缩到0,最后建立模型的时候,应当对这些变量谨慎处理。

  考虑的回归问题的变量个数大于样本个数时,建议先使用Ridge回归,观察有解情形下解的性质;然后可以选择Lasso回归进行变量选择。

  选择回归方法后,我们需要关注样本的协方差矩阵、回归时调整系数λ的选择。建议首先计算样本的协方差矩阵,重点关注相关性较高的几个变量,看之后的回归结果中他们的表现。如何选择最优λ:对于单个模型,建议通过观察回归系数路径来大致判断,根据对变量的需要来选择;若对于自动化过程,可以通过K折交叉验证的实验过程,选取最优λ。

  十年期国债收益率的变化牵动万亿资金的流向。国内债券市场很难确定哪一个利率是类似美国联邦基金利率的基准利率,货币政策主要受央行调控,虽有类似泰勒规则的模型作为参考,但不够精确,特别是在不同的经济状况下,核心驱动因子不尽相同。如果将十年期国债收益率看成价格,月度变化(环差)看着变化率,那么我们希望能够找到国内长债收益率变化的核心驱动因子及在不同时期的变化。

  我们主要梳理了四个有效的自变量:GDP同比三个月差分、CPI同比月度差分、PPI同比月度差分和美国十年期国债收益率月度差分。我们分别计算了这四个变量和十年期国债收益率月度环差的滚动48个月相关系数的情况。

  从spearman相关系数来看,经济变化对于利率的影响在降低,尽管美联储非常关注通胀的变动,国内通胀同期数据和利率变化的相关性其实并不高,相对而言,PPI同比变化和海外因素(美国十年期国债收益率)的相关性更高。通过滚动LASSO回归,我们能更直观地发现这种规律。

  2008年到2012年国内处于供求变化带来的经济周期,经历了所谓的复苏、过热、滞胀和衰退,宏观经济是核心影响因素,可以看到其他变量的回归系数几乎被压缩到0。

  2013年,银行间出现了与经济基本面并没相符的“钱荒”从图中可以看出,利率和宏观经济的相关性在走弱,这四个变量中并无明显的主导因素。

  2014年开始,国内政策主动放水,利率下行同步于全球的货币宽松,中美货币政策相对同步,十年期国债收益率的变化和PPI同比差分的相关性高于CPI同比差分的影响。

  从传统概率统计方法、机器学习到深度学习,人工智能算法受到了越来越多的关注。特别是AlphaGo Zero的成功,让“人工智能+”的概念深入人心。在量化投资领域,越来越多的机构,将研究精力放在了更前沿的强学习算法中。

  复杂度较高的数据挖掘算法有效的前提是问题一定有确定解(即使模型范式非常复杂)。同时要求数据的“质”和“量”达到一定要求。这两点在金融基本面数据上是很难严格满足的。

  以多因子模型为例,同期的基本面数据(实际投资无法获得)明显会比滞后的财报数据表现更好,这就是数据质量的局限;即使上市公司财务数据及行业基本面数据量较大,但仍未到“大数据”的层面。另外,这些数据本身噪声非常大。在实际应用中,我们发现在数据质量一般(共线性、滞后性等)、数据量不够大(宏观经济数据等)的时候,强行套用黑箱模型,不仅模型的解释性差,而且非常容易出现过拟合。针对相同样本,训练不同次抽样的同一样本数据,可能得到截然不同的参数估计和计算结果。因此,我们机器学习方法的未来依然是走向更为高频的数据,适合应用于舆情分析、高频交易等数据量足够大的情境中

  尽管深度学习算法在图像识别,语音识别等领域取得了惊人的效果,但是在理论方面依然缺少强有力的数学证明和大样本性质。针对一些基本面的数据,具有强有力理论支撑的传统统计方法,如线性模型依然表现出了较好的性能。基于以上考虑,我们推出温故知新系列专题,重新梳理部分传统的统计方法的理论基础和适用范围,本文是该系列的第一篇,从基于“偏差-方差”的目标误差分解入手,比较Ridge、ENet、Lasso、SCAD、MCP回归等方法的差异和适用范围,温故而知新。

  本文从模型预测总误差的“偏差—方差”分解角度出发,提出了OLS线性回归面临的困境,表现在系数矩阵共性性、pn时导致XX的不可逆,以及残差的独立同分布或高斯分布的假设不成立,最终导致模型预测总误差过大,预测准确性下降。我们利用带损失函数的最小二乘回归,牺牲回归系数的无偏性,降低模型预测总误差;针对残差假设不成立的问题,我们提出利用分位数回归的方法,得到多条分位数回归曲线,捕捉尾部风险。

  带损失函数的最小二乘回归依据惩罚函数的凹凸性质,可以分为凸性惩罚函数的弹性网族回归、非凸惩罚函数回归。弹性网族回归主要包括Ridge回归、ENet回归以及Lasso回归。Ridge回归是唯一具备显示解的回归方法,无论奇异性如何,均能得到回归系数,但Ridge对于较小系数无法压缩到0,而不具备变量选择作用;Lasso弥补了Ridge回归的缺点,具备优秀的压缩作用,能将较小系数压缩至0;ENet回归的压缩力度介于这两者之间。Lasso回归对于高度相关变量,会压缩其中一个较小变量,即选择性压缩系数;Ridge完全不会选择性压缩;ENet回归的选择性压缩介于Ridge回归和Lasso回归之间。

  非凸惩罚函数回归包括SCAD回归和MCP回归。相对于弹性网族回归的有偏系数估计,非凸惩罚函数回归的渐进无偏估计,能进一步降低模型的预测总误差。而且,对于较小回归系数,SCAD、MCP回归表现出差异化的惩罚处理,准确压缩变量至0。类似Lasso回归,SCAD、MCP回归对于高度相关变量会选择性压缩。

  分位数回归能够捕捉分布的尾部特征,例如出现左偏或右偏的情况时,通过多条分位数回归曲线,全面的刻画分布的特征,表现良好的弹性和对异常点的耐受性。

  我们模拟验证了Lasso、SCAD、MCP回归方法在选择性压缩、变量选择方面的特性,以及在降低预测总误差方面优秀表现。我们建议,要根据实际需求,选择恰当的回归方法:回归问题涉及变量过多、共线性强,可以选择变量选择作用强、预测效果好的SCAD、Lasso、MCP回归,而且因为Lasso在算法实现上简单有效,建议优先使用Lasso;回归问题的变量个数大于样本个数时,建议先使用Ridge回归,观测解的特点,再选择其他回归方法。在回归方法的选择过程中,要事先计算样本的协方差矩阵,观测样本的特点;对于回归方法中的最优,建议采用K折交叉验证思路选择。

  基于上述回归方法的梳理和验证,我们今后将积极探索上述方法在资产配置、选股择时策略、指数策略等方面的应用。

  订阅者对本订阅号所载所有内容(包括文字、音频、视频等)进行复制、转载的,需注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。返回搜狐,查看更多

http://cairowatch.com/zuiyoutufenjie/131.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有