拿到数据后,很多人总是习惯马上作图、计算,然后得出结论马上上报或发布。我在搜集资料时看到的很多医学论文经常这样,对一种新药或者新的治疗方法进行试验,建个试验组,再找个对照组,经过一段时间治疗和观察,分别收集一下治愈、显效、有效、无效数据,用卡方检验一算,p值小于0.05,效果显著,很快一篇论文报告甚至论文就出来了。
但是等等,你真的确认你的分析是恰当的吗?数据收集是否遵循了随机抽样的原则?是否采用双盲试验?方法是不是得当?结论是不是合理?有没有遗漏的细节?异常的数据应该如何处理?试验中有没有其它因素干扰如更换治疗、意外退出等等的影响?如果不能保证这些试验条件,如果不能保证对数据分析谨慎的态度,这样的分析结论就谈不上可信。
另外,对于异常数据的处理也是经常碰到的棘手问题。在《女士品茶》这本书里就提到,包括因为确定了光速而获得1907 年诺贝尔奖的艾伯特·迈克逊(Albert Michelson)在内,很多科学家在开始他们的计算前已经剔除了一些数据。17 世纪初就发现行星绕太阳以椭圆轨道运行的科学家约翰尼斯·开普勒(Johannes Kepler),他在研究古希腊天文学家的记录时,发现有一些观测位置记录不符合他正在计算的椭圆轨道,于是他就忽略了这些缺损数据(faulty value)。虽然现在人们不再轻易剔除数据,但这些异常数据往往会造成分析模型的变化,如数据不再服从正态分布,这就给分析带来了困难,因此有的人困难就会悄悄将其剔除掉或者修改一下数字。
在我看来,这些异常数据可能蕴含着丰富的信息,应该考虑的是首先探究异常数据产生的原因。如果是记录错了人员信息统计进单位时间的意义,可以改过来,并且探讨一下如何更好地记录数据。如果是一个有效的数据,要仔细了解产生这个数据的条件,是否在试验时条件发生了变化;如果继续试验,能不能重现结果;是否有必要修改试验计划,进行补充试验,也许新的发现就因这个异常数据诞生了。总之对待异常数据的处理要非常慎重。
1975—1977年担任英国皇家统计学会第一任女会长斯特拉·坎利夫(Stella Cunliffe),在1970 年被调到英国内务部(the British Home Office)调查局,这个单位负责警察、法院和监狱的监督工作。
在刑事犯罪学这一领域的主要研究工作,就是积累长期的数据资料,进行分析,以发现公共政策对其可能的影响。如有一项分析是针对男性囚犯进行的,即研究不同刑期的男性囚犯出狱后两年内重新犯罪的概率有多大。分析结果清楚地表明,刑期越短,重新犯罪的概率越高。从而作为一个证明:长刑期可以把惯犯从街头清除。坎利夫并不满足于重犯率与刑期间简单对比的数表。她要进一步分析数表背后所隐藏的东西。这种明显强关联关系主要是刑期在三个月之内的犯人重犯率高,经过仔细检查,这些人“几乎都是些年老的、处境悲惨的、精神不正常的人,他们被精神病医院拒之门外,所以才一次又一次地反复犯罪后再进监狱。”而统计表所反映的数字人员信息统计进单位时间的意义,实际都是这同一拨人,被当作不同人重复统计,才将短期犯罪的重犯率夸大了。统计表中的另一个极端表现是,刑期在10 年以上的犯人出狱后只有15%的人又重新犯罪。坎利夫认为,“这里有一个很大的年龄因素,一个很大的环境因素和一个很大的犯罪程度因素。刑期长的都是些犯大案的人,他们出狱后重新犯同样大案的可能性也不大了。”因此,在她用两个极端的情况将数表调整这后,重犯率和刑期间明显的关系消失了。
曾任过英国首相的著名作家迪斯雷利说:有三种谎言,谎言,糟糕透顶的谎言和统计资料。
总之拿到数据一定要小心处理,提防得出错误的结论。