加州大学洛杉矶分校的统计学教育

发布时间: 2015-07-16 阅读数: 1472

作者虞山,毕业于加州大学洛杉矶分校应用数学和统计学专业,现为SupStat数据科学家和雪晴数据网的编辑。

我们学校是一所学季制大学。 所谓学季制,就是一年有三个学期,每个学期有11周(前10周上课,最后一周考试)。 所有的专业课都是每周上四正节课和一节讨论课,每节课一个小时,给4个学分,凑够180个学分就能毕业了。正课由教授上,讨论课则由助教(一般由在读博士生担任)讲一些习题或者补充内容。

专业课中又分基础课和高阶课。其中基础课有7门,前5门就是大家相当熟悉的高数,所有理工科专业都要上,大致内容为单、多变量微积分还有线性代数。另外2门是C++入门和统计学入门。C++入门是我们学校开的最低级的计算机课,针对对编程零基础的学生而开设的,内容涵盖数据类型,循环,控制流,函数,字符串,向量,类等等编程基础知识。些而统计学入门,就是介绍一些最基础的统计知识,相信每个学校都不会差很多,大致分成五个部分,首先,学习如何形容一组数据:学习各种统计量(平均数,方差等),各种描述图表。然后,学习基础的概率学、随机变量以及一些经典分布(例如,二项分布,正态分布)。以及,采样方法,样本与群体之间的关系。接着,学习正态检验,t检验和卡方检验来引入置信区间和假设检验的概念。最后,学习单变量线性回归和相关系数。

高阶课分为四个系列:理论,算法,应用和实践。前三个每系列有三门课,最后一个部分2门课。

理论部分大致和数学课没什么两样,以论证和原理为主。有大概一半的课在讲概率论的内容,从最基础的概型讲到随机变量数列,动差生成函数以及多维正态分布。接下来就从原理的角度说些之前一直用的统计方法,比如各种分布是怎么来的,各种假设检验又是怎么回事。最后三分之一的内容是讲线性回归的原理,从一维到多维,然后在讲到逻辑回归(Logistic Regression),还有惩罚性回归(像Lasso和Ridge)。这一系类一般负担最轻,作业和考试也和正常的数学课一样写在纸上就可以了,每周也只需花1.5个小时就可以完成作业了。

算法部分,就是用R语言学习写一些算法。第一门课相当是一个概论,一边学习R语言语法,一边做一些小应用,这些应用的内容非常宽泛,没有一个特定主题,例如随机分布采样器,简易图灵解码器,自助法采样和一些初级的蒙特卡洛算法等等。第二门课的大致内容就是数学的最优化,从求函数的极端值开始,并讲了一些实用数学方法,像是牛顿法,最大期望算法,梯度下降法等等。最后一门课主要是讲蒙特卡洛方法,内容惊人地多,光是加强采样效率,减少采样误差的方法就教了很多。印象最深的是讲了如何用模拟退火算法算数独和旅行商人问题,此外还讲了一些和马科夫链相关的算法,像是Metropolis–Hastings算法和Gibbs取样。这一系列的课业压力就比较大了,做作业多半以编程为主,花得时间很多,毕竟有些算法要想好久才能写出来,有的时候debug也要花挺多时间。考试也以take-home形式为主,毕竟教授也不能把你锁在教室里十几个小时,让你写程序。记得当时有几次期中期末为了编这些程序也通宵了。

应用部分是由大把大把的实例研究组成的,第一门课主要是讲线性建模,大概就是通过大量地实例来学习,怎么样看这个线性方程有没有违反模型假设,怎么样处理极端值,怎么样变换变量,哪个模型比较好,要不要加这个变量,怎么样交叉检验等等。第二门课讲的是实验设计,感觉非常文科,前期要背大量有关实验框架的东西,学习如何辨别实验的类别和实验对象,怎么样针对现有条件和研究目的设计一个实验,对灵敏度的把握。后期就是对与实验结果的分析了,就是不停地做ANOVA。最后一门课讲的是数据挖掘,前面先是教了一些基础方法以分类方法为主(但是最后的final project 却是预测,比较不可思议。),像是逻辑回归,(非)线性判别分析,k个最近近邻。之后讲了决策树还有集成(Ensemble)这两个概念,由此引入了机器学习、梯度增强和支持向量机这三个方法。

这些课的作业也是编程,但每次都要“read.csv()”。往往只有一次其中考试,期末会做project。记得第一门课的project是为预测加州教育预算建立一个线性模型。第二门课就直接让我们从头到尾设计一个实验,当时用了一个叫lsland的网站。点像模拟城市,这个网站模拟了一个岛,并且模拟了一群在岛上的居民,每个居民的岁数,高矮胖瘦,抽不抽烟都有明确的信息,就连血压血脂血糖智商也可以精确测量。你可以在每个居民身上做各种实验,然后观察这些居民发生的变化。我当初的课题是巧克力是否会影响老年人的血压。先选择了若干个老年人并测量了他们的血压,然后天天上线给相同情况的老人喂不同计量和不同品种的巧克力,一周后测量血压,再和他们一周之前的血压进行对比。最后一门数据挖掘课的final project就直接搞了一个kaggle竞赛,让我们预测某地的房价,我当时用了梯度补强的方法还做出了个不错的分数。

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19617次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13584次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10968次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9310次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7796次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7745次阅读
热门课程

R语言初级课程

2015年02月20日发布 3098名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1624名学员

R语言数据分析入门

2016年05月10日发布 1466名学员

如何用R做数据预处理

2016年06月03日发布 1125名学员

全栈数据工程师养成攻略

2016年11月08日发布 976名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册