跳转到路径导航栏
跳转到正文内容

数据如何被轻易操纵(2)

http://www.sina.com.cn  2008年08月27日 11:19  新浪财经

  可口可乐和共同基金

  喝可口可乐就能减肥吗?这也是一场法律诉讼的中心问题。这场集体诉讼案所针对的是可口可乐公司生产的含咖啡因的绿茶饮料Enviga的广告宣传。向新泽西州卡姆登联邦地方法院(U.S. District Court)所提出的诉讼中称,Enviga的广告宣传说“该产品能够燃烧的热量超过了饮料本身所含有的热量,从而能够减少人体热量”。

  诉状称可口可乐所宣称的内容是基于“一份小型的短期研究的摘要,这次研究由可口可乐公司提供资金……”。诉讼文件称该次临床研究的对象是相对偏瘦的个体,并且他们的平均体重指数(Body Mass Index,BMI)为22,但“绝大部分美国人都偏重或者肥胖,”他们的BMI达到了25甚至更高,他们很可能无法通过使用Enviga来达到减肥的效果。但可口可乐的发言人称公司的研究和其结果都是有效的。

  另一个在统计方面颇具争议的案例是三月份《华尔街日报》(Wall Street Journal)上关于德莱弗斯基金(Dreyfus Funds)的广告。北卡罗来纳州三角研究中心(Research Triangle)的独立统计顾问,也是美国统计协会(American Statistical Association)成员的戴维·彼得斯(David Peterson)说,广告宣传该公司中期收益基金(Intermediate Term Income Fund)在晨星(Morningstar)的评级中获得了四星。

  “广告中小心地指出过去的业绩并不代表未来,却没有指出德莱弗斯基金旗下至少有19支共同基金,”彼得斯说。“即使这19支基金本质上并没有任何不一般的地方,其中最好的一支很可能一直都表现优秀。同样,最差的一支——在广告中并未提到——一般也会表现很差。”

  他说,如果采用同样的原则考虑问题,那么制药公司“可以就新药的效果进行10次独立的不相干的测试,然后仅仅使用最有效的那一次实验结果来进行广告宣传。”

  不信任与错误表达

  沃顿商学院的延森教授说,在所有研究中,产生非故意误差的机率同样也引人担忧。

  “即使所选择的样本非常优秀,但也可能会产生令人误解的结果,”他指出。“一个常见的问题就是数据挖掘。如果说分析一个大资料组的时间足够长,他们就肯定可以找到某些变量在统计学上具有的显著效应,或者不同变量组之间的差别。”但他说,遗憾的是,研究者们经常只是简单地报告他们个别显著的发现,而没有提到“在他们得到那个结果之前进行了许多次效应不显著的试验”。

  延森认为,“对整个试验流程进行适当的报告是有必要的,以保证各种类型的试验结果都得到了表达。”但至少有两股力量经常对效应分析产生负面影响。“第一就是对统计分析的不信任,第二就是在学院派统计学家和实践者之间缺乏对话。”延森说。实际上,“我曾阅读了众多在医药、经济和社会科学领域的研究,如果他们能够与统计学家就所收集数据的分析,以及数据收集本身进行更多的探讨,这些研究就能够从中受益。”

  布莱特劳同样对统计结果的阐述表达了担忧。“我经常告诉自己的学生说以数据为驱动的解决方案不一定能告诉你正确的答案。相反,他们能够告诉你可以排除哪些(答案),因为数据无法支持那些答案。”统计分析的真正价值在于能帮助使用者正确地辨别不确定性而不是“最佳猜测”,以了解哪些结果具有统计显著性,并且能就特定的假设情况给出答案。

  “关键问题就在于代表性,”他说。他再次回到关于罗杰·克莱门斯的研究。“研究者们和使用者们应该关心数据是如何取得的,这些数据是否是通过随机抽样获得。如果不是,那么就应该小心其研究结论了。”

  布莱特劳认为即使研究人员没有任何预谋,也应该对其研究结果持谨慎态度。“在20世纪90年代末期,我们在一个具有20年历史的公墓收集人口资料。数据显示相比于埋葬在该公墓内多年的人,那些埋葬时间较晚(即越靠近研究时间)的人平均死亡年龄较小,” 布莱特劳说。他将研究结果写入了一篇为《机率》杂志(Chance)所撰写的文章:《异象选择谈》(A Selection of Selection Anomalies)。

  “资料很容易让人得出结论说年轻人的死亡率已经提高,但这个结论并不正确。”相反,他指出,如果对该研究中的资料进行分析,就会发现在公墓内所葬人群的样本必定会更多地包括那些较年轻死亡的人,这只是因为他们的出生日期更靠近调查日期,而死亡年龄只是参数之一。

  沃尔弗斯认为要减少统计学上的错误使用,关键在于直觉的合理性,或者对研究者所使用的方法以及对各种力量之间的相互影响的了解。“重要的是了解在不同变量之后的驱动因素,”他说,“只有在了解这些之后,研究者才能更好地理解和建立因果关系。”

  延森举了另外一个例子。“我正在参与一个为美国职业棒球大联盟外野手的守备能力建立模型的研究。研究中的一种假设是说如果球被击到他们身后的话,外野手的守备会更加困难,因为这样他们必须倒退地奔跑,而如果球被击到他们前方的话,他们只需要向前奔跑,这样会相比更加容易。”

  但是研究结果与所假设的情况相反:在任何给定距离下,外野手倒退奔跑能接住更多的球。“这个结果看上去完全违背我们的直觉,”延森说。“但如果考虑到滞空时间(即球在空中停留的时间)你就会觉得合理了。因为球被击打得更远,那么它在空中停留的时间就会越长,这样外野手就会有更多的时间来接球,即使球被击打到他们的身后。这是一个很有意思的案例,因为案例中数据清楚地表明了我们之前推理所存在的缺点。”

上一页 1 2 下一页
【 新浪财经吧 】

我要评论

不支持 Flash
Powered By Google ‘我的2008’,中国有我一份力!

网友评论 更多评论

登录名: 密码: 匿名发表

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2008 SINA Corporation, All Rights Reserved

新浪公司 版权所有