您好、欢迎来到现金彩票网!
当前位置:PC蛋蛋 > 最优凸分解 >

The Elements of Statistical Learning 需要怎样的数学基础才能

发布时间:2019-07-25 20:30 来源:未知 编辑:admin

  第一章没什么好说的,简单介绍了一下机器学习的几个例子以及本书用到的数据集。

  第二章基本上是全书的概览,分类问题,回归问题,偏差-方差分解,维度灾难,以及一些结构化的模型,这一章用到的数学就是一些统计学最基本的概念,期望、条件期望、方差等,当然求解线性回归时还需要熟悉矩阵求导(这玩意线性代数高等代数矩阵论里面一般都不讲,感觉跟微分方程一样属于“三不管”的领域,个人经验就是把矩阵拆开逐元素多算几次就熟悉了),顺便说一下,整本书都大量用到了矩阵求导,所以这一块还是应该好好掌握的。此外,个人认为,这一章对新手并不友好,如果之前完全没有接触过机器学习,看完整章还是一脸懵逼。。。

  第三章讲解线性回归模型,从最基础的最小二乘到多元回归再到子集选择,以及一些常用的正则化方法(例如岭回归、Lasso),最后还讲到了一些较前沿的最小角回归。这一章除了基础的数理统计,需要大量的矩阵方面的知识,包括矩阵求导、施密特正交化、QR分解、特征分解、奇异值分解、以及大量关于“迹”的性质,我当时看这一章时正好在学矩阵论,趁热打铁看得还比较顺畅,此外,这一章的不少习题有相当的难度。。

  第四章讲解线性分类模型,线性判别分析本质上就是求解瑞利商问题,需要懂拉格朗日乘子法以及矩阵的特征值分解;逻辑回归需要懂梯度下降这种优化方法,当然本书强行采用的二阶的优化方法牛顿法。。这线性判别分析和逻辑回归的一大区别就是一个可以看作生成模型,一个可以看作判别模型。最后就是感知器和线性可分SVM了,需要的数学工具主要就是凸优化里面的拉格朗日对偶。。

  第五章讲到了基的扩张,个人感觉是整本书对数学要求最高的一章吧,从分段多项式和平滑样条讲起(这一部分应该更偏向于数值分析的内容),其中有一些结论非常漂亮,后面继续讲解该如何通过参数控制模型的复杂度。接下来就进入到传说中的再生核希尔伯特空间(RKHS),这部分的内容需要泛函分析的知识,可以参考李航《统计学习方法》第七章的内容,讲解地非常清楚详细,在我看来,对于非数学系的学生而言,函数空间的观点非常重要,理解了这一观点再看RKHS就不是特别困难了,最后的小波分析也是数学重灾区,不过我自己也理解得不好,就不瞎扯了。。

  第六章核光滑方法,基本就是非参数统计的知识,没太多技术上的难点,这一章顺带提了一下朴素贝叶斯以及高斯混合模型等常用的方法。

  第七章关于模型的评估与选择,主要在于体会“偏差-方差分解”的思想,没有特别复杂的理论推导;当然其中有一节“VC维”除外,有关于VC维更详细的推导强烈推荐林轩田的《机器学习基石》1-7节。

  虽然本书的三个作者都属于“频率学派”(我们一般学习的数理统计也都属于频率学派),在第八章他们还是提到了一些关于“贝叶斯学派”的内容,更详细的讲解需参考《贝叶斯统计》,由于贝叶斯推断需要求解积分,计算机是无法直接求解的,因此需要通过采样进行求解,本书提到的马尔科夫链蒙特卡洛(MCMC)是一种近年提出的非常经典的采样方法,理论保证来源于马尔科夫链的平稳分布,一般的随机过程教材对这方面都有详细的讲解。针对频率学派,最常用的参数估计方法就是极大似然估计,然而对于一些含有隐变量的模型而言,直接采用极大似然估计很难求解,于是就有了一种近似方法——期望最大化方法(EM),将最大似然估计的过程分解为两个步骤,更详细的推导可以参考李航《统计学习方法》第九章,需要熟悉凸函数的一些性质,例如琴声不等式。。

  第九章讲解了广义加性模型等一些相关的方法,基本上都是本书几个作者的研究成果,我理解得并不好,也没具体用过,就不多说了。。

  第十章又是本书的一大重头戏,首先从指数损失的角度重新解释了经典的Adaboost算法,接下来就是横扫各大数据挖掘比赛的GBDT了,毕竟是本书这几个作者搞出来的,理解的深度自然又不一样了,不过更多的是关于方法性的东西,对数学并没有太多的要求。。可以参考李航《统计学习方法》第八章。

  第十一章,神经网络,主要讲了BP算法,需要掌握微积分中的复合求导链式法则,本质上就是一种动态规划方法,感觉这一章没有太大看的必要,内容有点过时,不如直接去看深度学习,在这里向量化编程的重要性尤为显著,不然训练速度有你好受。。当然,要想熟悉向量化编程,首先需要熟练掌握各种矩阵运算。

  第十二章,支持向量机以及判别模型,支持向量机主要用到了拉格朗日对偶以及核方法(在第四章和第五章已经提到),更详细的讲解可以参考李航《统计学习方法》第七章以及林轩田《机器学习技法》1-6节。后面的各种判别分析主要是本书作者Hastie的研究成果,网上对此的讲解非常少,我也没怎么理解,就不多说了。

  第十四章,讲了这么久的监督学习,终于进入到了非监督学习领域。各种聚类分析、主成分分析、谱聚类、独立成分分析、矩阵分解,这部分内容用到的主要数学知识还是矩阵论,更详细的讲解可以参考多元统计分析相关的内容。本章最后提到了一些流形学习的方法,理论上很漂亮实际效果就不好说了。。最后提了一下谷歌的排名算法,本质上也是基于马尔科夫链的平稳分布。

  第十五章和十六章讲解了随机森林和集成学习,都是一些具体的测试结果,并没有太多的理论分析。。最后十七和十八章没看,暂时也没打算看了,就酱。

  纵观全书,应用最多的数学还是微积分(数学分析)、线性代数(矩阵论)、概率论以及数理统计(包括回归分析、多元统计分析),一定的凸优化、数值分析、随机过程是有必要的,另外泛函分析主要可以帮助提升观点,从统一的视角看待之前很多门数学学科,理解函数空间很有必要。

  最后是个人的一些看法,感觉这本书针对很多问题解释得过于直觉化,具体的实现细节都没有展现出来,如果没有具体的编程实现(比如我),还是很难领悟到这些算法的精髓。另外,这书确实不能算入门教材,里面的很多经典算法讲解都过于简略,必须去参考其他书籍甚至原始的论文才看得懂。当然有机会我还会把书再看一遍的。。

  这本书是我最常用的一本书之一。专门买了印刷版放在桌头。每次写论文的时候对于数学符号的应用、算法的表述和假设、以及公式的阐述等方面有疑问的时候,我都会把这本书拿出来看下。

  这本书我没有完完整整的读完过。但是三个作者在斯坦福开的课我都上过。这些课上都是用的这本书。基本把书上的章节都涵盖了。所以我接下来将从两个角度来讲下我的看法。第一个角度是从斯坦福的课程安排以及课程的要求。第二个是我上课和阅读该书的心得。

  在斯坦福,以这本书作为教材的课程都是300级的课程。这些课程的面向对象基本是统计博士第一年以上的学生。当然,上这些课的人包含了从本科一直到博士的学生,而且不仅限于统计系。对于这本书运用最多的是Stats 315A 和 Stats 315B 这两节课。

  因此,从斯坦福的课程安排上来看,读懂这本书需要对统计的基本概念以及模型都有一些理解和了解。这样在读这本书的时候就不会太过纠缠于概念。

  我不是学习统计的。我自己最开始是先上的Stats315B因为看到网站上没有课程要求。但是当时上的很痛苦。因为之前仅仅上个CS229 Machine Learning。在关注很多统计概念的时候很吃力。后来上了一些统计系针对硕士的课程后,再上Stats 305ABC和Stats 315A就觉得连贯了很多。

  我觉得需要知识点(都是大学本科基本的课程)包括有(其中很多之前的答主已经说了):

  在读ESL的时候,我更多是把它当做一本工具书。举个最简单的例子,我有一个linear regression的问题需要解决。那么我会先看下这本书里面是如何解决这个问题的,假设是什么。如果有一些条件不满足,书里是否讲了。没有的话,再去google。这本书上的内容并不是很新,但是很经典。我本人的科研方向是偏工程领域,因此对于我个人来说这本书里面很多的方法是足够用的。

  最后,我推荐大家先读一下三位作者的另外一本入门书Introduction to Statistical Learning. 我认为读完这本书在读ESL会让整个阅读感受更加直观和顺畅。

  微积分、矩阵微积分、线性代数、概率论、数理统计、线性回归、非参数统计、多元统计分析、凸优化(线性、二次)、泛函分析;

  数值优化、数值线性代数、概率图、boostrapping、随机过程(马尔科夫模型)、learning theory

  这本书是斯坦福统计系Stats 315a, Stats 315b statistical lear ning的教材,当然Stats 306b unsupervised learning有时也会用这本书。上课的老师一般都是那3个作者啦,所以有老师讲解会好很多。当年还有视频上课,我录了下来;stats 315b是找同学录的,后来不见了,然后2015年的时候认识了一个师弟,找他要了帐号,又录了一遍,也重新听了一遍,那时候深度学习已经火起来了,听听斯坦福统计系教授对深度学习的看法也挺好。

  网上有人对比stats 315ab和计算机系吴恩达的cs 229 machine learning,当然那个人是偏向吴恩达的,比如cs 229材料更新更快、内容更友好、编程作业设计更好等等。从课程设计来说,统计系的这些课貌似线,但从学习内容来看,统计系的要更严谨一些,而计算机系的课更偏重数值计算,比如提出一些很直观的优化方法来提高速度等。

  所以他们的方法会更偏lasso这种sparsity的方法一些,跟深度学习很不一样。

  第一章 introduction举了几个例子简单介绍了一下,没什么太多的内容,数学要求不高;

  第二章 简单的回归和分类模型,课后习题建议都做一下,网上搜得到答案,上交的一个同学和国外的一个同学做过。另外那幅分类的图习题2.2要计算贝叶斯最优边界的貌似都没有做出答案,或许并没有解析解,但画图还是容易的,数值解也不难,我自己也没有太仔细研究;

  第三章线性回归,各种lasso, ridge的模型,其实linear algebra, matrix calculus还是必须的,取决于自己的熟悉程度,有一些这方面的讲义可以搜一下;当然,probability and mathematical statistics也是需要的,国内一般大一大二会学吧;其实这本书也假设最好学过一门回归分析的课,这应该是统计系大三的课;这章的习题会有点难度,建议找几个同学一起来做,用latex写,然后大家共享。这本书估计有点难,网上貌似没有很全面的习题解答,那几个斯坦福的老教授又比较懒,当然我上过课收集几年的习题解答还是能凑出一些的,自己也能做出一些;

  第四章讲线性分类的,最后提到了分割平面,所以linear and nonlinear optimization的理论也需要一些,也有地方叫做convex optimization,国内一般大三会学,最好是这些基础都准备好了再读这本书,因为他写的比较跳跃,如果遇到不懂了,假设自己懂了继续看,这样子随着“假设懂了”的情况越来越多,自己越来越蒙。另外一个学习的技巧在于把里面的图表都重现一下,哪怕理论证明我不懂,但这些程序我会写,也是一种收获,毕竟实际工作中主要是写程序。

  第五章主要是非参数统计,当然如果之前上过一门nonparametric statistics会比较好,这本书烦就烦在每个知识都用到一些,但为了这些知识专门去上一门课似乎划不来,但如果不上自己自学又看不大懂,也就是说这本教材并不是十分自洽的。一般非参数统计是统计系大三的课,数学系、计算机系都不会学,需要自己选修,所以有点麻烦。而且这章还用到了泛函分析希尔伯特空间空空间之类的,functional analysis也是数学系大三的课,所以对数学系学生来说读这本书也是挺合适的,很多数学系的学生总是抱怨说读了这么多这些东西以后有什么用啊,其实如果上cs 229 machine learning却是没用,但是读读这本elements of statistcal learning还是能刷存在感的。如果以后做量化金融还是有点用的,比如

  还有就是MIT的Andrew Lo(罗闻全)研究技术分析的时候用nonparametric kernel regression逼近价格曲线之后通过简单的求导找出极值点,本质上就是过滤掉噪音。所以这些传统的数理方法还是有点用的,大家认真学学吧。

  第六章也是讲这些kernel的,还是nonparametric regression,所以如果读过一门非参数统计的话会好很多,否则也会比较吃力。但只要能编程实现,大概脉络懂了,数学推导的细节不必太在意。

  第七章讲模型选择的,就是bias-variance的分解,避免过度拟合之类的,略微提到了VC维这种纯learning theory的内容,另外还有boostrapping,其实boostrapping一般是用来估计标准差的,机器学习里面可能用的不多,因为机器学习貌似只关系prediction error,不大关心估计值的置信区间。斯坦福的Efron是提出boostrapping的人,也是这些人的导师辈,写了本这方面的书,有时间也可以看看,但一般大学统计系不会有专门的课讲这些,这些也不难。

  第九章又变得温和一些,主要讲tree -based model,回归树、分类树之类的,其实很多书讲得更好,比如他们很多年以前出了一本Classification and Regression Tree(CART)的书,这些属于比较老的方法,更多是为了第十章打基础。

  第十章主要讲boosting and addictive trees,讲课的是Friedman,由于是他自己提出来的方法当然重点讲,比如说这是当今最受欢迎的方法啊,60%的kaggle最优算法都是啊,剩下的是随机森林之类的,总之tree-based model很受欢迎啊。。。另外还有一些numerical optimization的内容,主要是计算gradient,其实这些都是软件包的事情,这些深入下去也是无边无际的,numerical optimization属于比较偏门的内容,一些科学计算的专业可能会学,研究生一年级吧,stephen wright有一本很著名的教材就叫做numerical optimization,另外stephen boyd写的convex optimization也会提到,他的ee 364b会重点讲这些,但是没有出书。

  第十一章讲神经网络,但是只讲了单个隐层的,出书是2008年左右,那时候深度学习还没火起来,深度学习应该是2012年开始才比较火的,所以这部分内容不是很多,加上作者对深度学习的鄙视态度,这方面的内容不多,有兴趣的可以看deep learning的书。

  第十二章讲支持向量机,这也是机器学习里面很著名的一个方法,而且数学味道比较浓,主要是用了很多凸优化的内容,其实很多模型理论复杂,使用都挺简单的,不同的kernel试一下。

  第十三章讲k-means, nearest-neighbour,很多讲分类的书一开始会讲,但这里放到比较后面,其实内容是挺简单的,没啥特别的数学吧,除了多元正态分布那些。

  第十五章讲随机森林,也是很常用的一种模型,不怎么需要调参,数学基础就不多了,有了前面的知识足够应付。

  第十七章讲概率图的,比如Markov Graph,如果专门学过Probablistic Graphical Modelhui1比较好,但那又是更大部头的一本书。。。或许直接学ESL还容易一些。

  第十八章讲pN,统计学家就喜欢搞这些,数学上没有太多新的内容。。

  我觉得很好的一本书呀。看不懂大概是因为没有跟着做project. 我们当时是博一的时候, applies stat Andrew Gelman 推荐的这本,然后基本里面经典的例子都亲手码了matlab or splus. 当时觉得,哇塞,还可以这样不管assumption 的用公式,而且结果居然不赖。对以后选应用还是技术岗影响深重。

  首先说一下这本书确实是一本相当好的书,引用我们系一位很牛逼的老师的话是 You should know in your high school。其实如果只想简单套用这本书简单的方法 因为网上有绝大多数方法的程序 基本微积分 线性代数 概率论 数理统计 以及优化的知识就够了。如果想深入了解这本书里面的某种算法的话,个人建议去看相关的论文,因为这本书讲的有些过于简单,大概掌握里面证明问题 一定要掌握凸优化的内容。这本书我也只是浅尝辄止的读了下,个人觉得这本书作为统计学习方法的概览比较好,深入思考其中的问题还是多去读读论文。

  数学基础的话, 基本上大学数学学到的几门课的内容就够了, 包括微积分, 线性代数, 概率论, 随机过程等. 特别是前面三门课程, 基本上大学理工科都学的吧?

  如果这些内容都忘了, 建议找点教材学习一下, 或者可以看看可汗学院相关课程的视频. 同时, 如果在啃的过程中遇到些许不懂的知识点, 也可以通过网络获取相关知识点的基础部分, 现在学习比起若干年前, 还是方便许多的.

  另外, 个人觉得, 这本书比较枯燥, 最需要的是要能够坚持住, 把它啃下来. 宝剑锋从磨砺出, 梅花香自苦寒来, 如果能把这本书啃的滚瓜烂熟, 应该能够胜任绝大多数工程类的机器学习的工作了. 楼主以及走过路过的朋友, 如果啃下来后, 欢迎把简历发我, 敝司(金融科技类, 非大厂)招人, 同时敝人若干朋友的公司(各种,包括2B的, 非大厂)也招人.

  如果就说需要什么数学基础能读懂,线性代数,微积分还有基本数理统计就行了。

  这本书通俗易懂,比较难的数学都跳过了,如果数学基础好,感觉就像在看小说一样。

  不过,想学好内容,强烈建议用python实现里面的算法或者学会如何用scikit learning调用相应的functions。

  首先想补充一点。我个人认为线性代数上的最大的难点是在于对于矩阵和向量求导。我自己所在的学校教授的线性代数课对此并没有涉及,但是在学习过程中发现这方面的知识至关重要。举个例子,比如说最土的多变量线性回归的推导,或者从convex optimization角度推导同样很土的SVM,都需要这方面的知识。

  其次比较重要的自然是概率论了。当然,如果只是为了读懂这本书,没有必要去了解测度论之类。但是各种convergence in probability可能要玩熟,然后一些常见的很土的方法(kernel regression啊,histogram啊乱七八糟的)也要有大致的了解。

  最后就是一丢丢的实分析和大量的微积分了,尤其是微积分要玩的特别熟。微积分其他答主说的已经非常到位了,我就斗胆补充下实分析上的知识吧。因为很多对于被估计的函数的平滑性假设都是建立于实分析的概念之上(Sobolev,Lipschitz,Holder),而且常见证明中也常常会运用到各种泰勒展开,尤其是对于高斯分布的相关的证明。所以有实分析知识肯定会有很大的帮助。当然如果完全没有也问题不太大,稍稍了解下把概念弄清楚就好。

  最后安利CMU 10-702的lecture notes,nonparametrics那一块是EOSL作者Robert Tibshirani的儿子Ryan Tibshirani写的...然后他突然当爹后就不教课了(

  正在看这本,我觉得这本书的一大特点就是图文并茂,很多插图能够把问题说到点子上,同时又能兼顾美观(彩色?)

  不知道题主的水平如何,不过我个人是觉得这本书不太适合作为学习新知识的书籍,感觉它扮演的有点类似于《统计学习方法》的那种风格。倒不是需要多少数学和统计知识的问题,而是需要一个真正在优化和ML问题中把这些概念不断融会贯通加以运用的过程。乍看上去好像书中公式插图应用都涉及到了,但是真正一步步走的时候中间有很多的gap是没有提及的,让新手容易处于一种被动接受的状态,而不是自己顺着跟主线一步步走下去。

  也许是我的愚笨,但是越学越觉得在学习这个领域的过程中,general picture是相当重要的,如果一本资料让人把大量的精力花费在琢磨作者的文外之义,就很难再兼顾整体的把握,而这个东西,并不仅仅是那几门课的事情。(我就看到某数学系小哥看这本看得很欢快)

  今天又去了OH, 更加感到如果是要入门的话还是不建议从这本书开始,盯着书上寥寥数语放飞想象的翅膀却什么也找不到是很浪费时间的。更不用说如果把一个问题考虑到每个毛孔里(比如具体怎么用里面的方法解决实际问题)。

  举个可能不恰当的例子,国画留白很美,但是没有体会辽阔意境的时候,看到的只有白,空洞的白。

  这本书非常不容易读,并非因为本身难度,而是因为涉及广度太广,相当于一本大字典。通篇读完+习题做完+引用文献读完可能要花上好多年。

  假如你有志于深入了解机器学习,认真钻研这种细节证明还是很重要的 ,所以你还需要找时间研究这两个文献...

  金工本,统计双,刚开始跟着老师在读... 只看了前三章,感觉数分 高代 概率论 数理统计的基础再加一点回归就足够推倒书上面绝大多数定理了。不过还是啃的日常怀疑智商。但愿申请前能读完 半年后再来答 逃..

  习题有相当难度.有些甚至是是unsolved,得靠弘毅小伙伴和老师来。正文部分的推倒翻翻优化的书还是能找到支持的。 因为读过西瓜书,凸优化,python实战,像高票答案说的一样的,感觉看啦西瓜书和python实战是能调包,公式抄写,但是总有种很不通透的感觉,但是凸优化结合ESL能把算法之间的关系和原理厘的很清楚,不过初读的时候很容易淹死在证明里面出不来

  这本书的作者是Stanford统计系的三个大牛,Rob Tibshirani是COPSS奖获得者,其他两个也是ASA的Fellow,学术水平首先没有的说。

  这哥仨的主要研究成果我来介绍一下,Hastie最重要的是GAM(在ESL的第九章),一些nonlinear的判别分析(第四章和第十二章);Tibshirani是LASSO(ESL的第三章),这是他获得COPSS的贡献,除此之外就是他和Hastie co-author的GAM和他自己在一些生物统计方面的工作;Friedman的工作要偏向计算机一点,他的主要贡献是Gradient Boosting(第十章),MARS(第九章),PPR(第十一章),此外这哥仨还写了一堆的R包,造福了很多统计的Ph.D.

  我们从研究方向可以看出来这三位作者实际是统计领域的统计学家而不是计算机领域的机器学习专家。所以他们的作品也会打上很深的统计烙印,和计算机领域的专家的书籍的侧重点不同。所以书中会出现大量统计中特有的方法,比如第三章的LARS,第六章的local polynomial,第十二章的RDA,这些内容在CS这里并不是重点。所以题主如果是CS的学生或者是只想在业界应用,我建议可以辅助的读一些类似PRML,MLAPP,统计学习方法这样的书。如果题主是统计的学生想继续深造,那么可以重点读一下这本书的前九章(第十章往后就不是统计的热门话题了,而且他们写的也不算好)。

http://cairowatch.com/zuiyoutufenjie/133.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有