吴喜之:统计教学面临的挑战(一)

发布时间: 2016-09-18 阅读数: 2104

本文原载于北航数据科学中心,作者:
  • 吴喜之,中国人民大学统计学院
  • 刘超,北京航空航天大学数学与系统科学学院

一、前言

2011年初,国务院学位委员会在新的研究生专业目录中将统计学上升为一级学科,为统计学科和统计教育的发展提供了更广阔的平台,同时也显示出统计对科学 研究、经济增长和社会发展的重要性。随着统计知识的普及以及经济、社会的发展,特别是在信息化社会的今天,理、工、农、医、经济、管理以及人文社会科学对 统计数据分析的需求在持续增加,需要处理大量的数据信息,而统计是有力的分析工具和决策方法。

目前,我国有接近一半的在校大学生,即近千万大学生都要学习统计学课程。无论作为统计系的专业基础课程还是其他院系的公共课程,统计学都越来越受到重视, 特别是在经济与管理类专业,统计学是一门核心课程。不同院系的统计课程的最大区别在于所使用的数据和案例,而作为统计课程核心内容的统计方法是完全相同 的。但是,目前我国统计教学过程中存在一些误区,这包括:(1)把统计课程完全按照纯粹数学的模式设计,过于重视数学公式和推导,对于基于数据的统计思想 介绍得不很充分;(2)虽然也强调统计应用,但仅仅指出这些统计模型在什么假定下可用,而很少指出违背这些假定的后果,很少强调统计学家不能替代实际领域 专家做决策的原则,也极少提到统计应用中一系列决策的主观性和任意性。

本文通过对统计、数学与科学研究关系的总结,探寻我国统计学教育改革和发展的方向。从统计学这一学科的本质出发,明确我国统计学教学中所存在的缺点和不足,提出加强统计教学建设的思考和建议,为我国统计学教学改革和统计学高等教育的开展提供参考。

二、统计、数学及科学研究

数学是以公理系统为基础, 以演绎为基本思想方法的逻辑体系。数学(至少纯粹数学)是封闭的、完美的理想世界,不同于真实世界。它属于少数可以和世界具体事物无关的自成体系的学科。 在大前提下(公理系统之下),只要逻辑正确,不会犯错误,最多没有结果。对于结果的正确和错误,不会有争论(最多是争论该结果的意义有多大)。数学的研究 可以完全脱离实际,不必要一定和具体的现实世界挂钩。因而,国外一般认为数学是艺术而不是科学,因为科学是面对具体研究对象的。

和数学相反,统计是一门科学,是以实际事物为对象的。按照不列颠百科全书中的定义,统计是“收集、分析、展示和解释数据的科学。” 它类似于物理学等其它科学,是以现实世界待解决的问题为目标的。所谓科学研究的方法,就是观测世界或进行试验得到数据,提出可以解释这些观测的假说或理 论,试图尽可能地接近现实世界的规律,当出现理论或假说无法解释的现象(数据)时,就有可能需要对原有理论进行修正或者代之以新理论。所以,以归纳为主要 思维方式的统计是描述现实世界的科学研究,是为各领域服务的。总结信息时会形成模型(假说/理论),统计需要建立各种数学模型来近似现实世界。但任何数学 模型都不可能精确地描述现实世界或自然,也无法证明任何模型是正确的,正如没有科学理论(假说)能够等于真理一样。我们只能够说,在某些可能有争议的准则 之下,某些模型比另外一些要更合适一些。和确定性的数学不同,统计的结论不可能是确定性的。数学是不能证伪的,而统计科学和其他科学的理论一样,必须是可 以证伪的。在不断证伪的过程中,统计科学才得以发展。

三、统计教学中的问题

数理统计课程的教师多数是数学出身,很多人缺乏数据分析的经验,往往把以归纳为主的统计当成以演绎为主的数学,这对于不同背景的学生造成不同程度的不利影响。目前,我国统计教学存在以下误区:

(1)很多人认为统计学是“数学的一个分支”。

我们认为,如果脱离统计的应用背景而把统计作为纯粹数学的一部分,那么,统计学没有存在的必要。原因在于,第一,统计学的方法都是在应用的推动下产生的, 如果没有应用,它们不会出现。其次,如果以应用为目的而产生的统计方法不能满足应用的要求,再漂亮的数学表达也不能保证其存在,脱离应用背景的统计方法是 没有生命力的。第三,统计中的数学本身不能形成一个完整的逻辑体系(贝叶斯统计可能被认为是例外),其中有大量的人为或主观因素在起作用,这是不符合纯粹 数学的本质的。因此,到底统计是不是数学,我们没有必要进行争论。在不同定义和前提下面,可能有各种结论;但统计为应用服务的本质,是没有人争论的。而统 计的基础是实际领域产生的数据,也是被广泛接受的统计定义所确定的。评价统计方法的最终标准就是看该方法能否解决实际问题。

(2)过于重视数学公式和推导,轻视对统计思维的培养。

由于统计发展历史中的数学背景,上个世纪中期基本定型的数理统计教材充满了数学味极强的定义、引理、定理、推论,以及贯穿其中的纯粹数学推导和证明。但 是,和确定性的数学不同,以归纳为主要思维方式的统计是描述现实世界的,统计的结论不可能是确定性的。数学是不能证伪的,而统计科学和其他科学的理论一 样,必须是可以证伪的。在不断证伪的过程中,统计科学才得以发展。因此,这样的统计教材往往对于背后的基于数据的统计思想介绍得不很充分,也不强调这些充 满假定的数学模型都是对现实世界的不同程度的简化。几乎没有人告诉学生,所有统计教材中对数据(或其总体)的数学假定都是无法用数据验证的。大多数教材仅 仅指出这些模型在什么假定下可用,而很少指出违背这些假定的后果。

(3)虽然强调应用,但是忽略统计方法的软件使用。

很多统计教材的所谓应用,往往就是给出几个例子,而且这些例子很多时候并没有说明如何根据软件操作得到,从而导致学生面对实际数据恐惧而束手无策。虽然可 以通过软件操作手册掌握软件的使用,但这增加了学生学习的负担。而且,专门按照手册式的软件书学习软件是事倍功半,因为这些操作手册往往过于强调操作过程 和技巧,忽视对软件输出的统计结果的解释,导致学生不能正确解读统计分析结果,从而面对一堆输出而束手无策。

下一篇请看吴喜之:统计教学面临的挑战(二)
分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19618次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13584次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10969次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9310次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7797次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7746次阅读
热门课程

R语言初级课程

2015年02月20日发布 3098名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1624名学员

R语言数据分析入门

2016年05月10日发布 1466名学员

如何用R做数据预处理

2016年06月03日发布 1125名学员

全栈数据工程师养成攻略

2016年11月08日发布 976名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册