您好,欢迎来到皮书数据库! | 皮书网首页
登录|注册 |无障碍阅读
国家知识资源服务中心 CARSI
图表库
图片名称: 21世纪数量经济学(第14卷)
出版时间: 2014年07月

关于对数变换的一个注记

1.4.1 问题提出

统计模型的核心是相关关系而不是因果关系(函数关系,决定论),它重在考查变量间是否存在显著的数量关系,如目标变量(被解释变量)Y的变动与X的变动有关,即X在数量上对Y有一定的预测功能,这是一个相关(或回归)问题但不是因果问题,因为变量X并不一定是Y的原因。因此,在很多计量经济、数据挖掘、机器学习等相关文献中,变量X被称为“预测变量”(predictor),拟合值

称为“预测值”(predicted value),变量Y与X的关系称为“预测关系”。然而,如果变量间的相关关系可以通过对数变换而增强或减弱,那么这无疑增加了人为操作的风险。比如,变量间可能本不存在显著的统计关系,但是经过对数变换之后,变量间的关系被“巧妙地”建立了;或者变量间原本存在的相关关系被对数变换所掩盖。

在近期的数据预处理过程中,我们遇到了这样的问题:(1)Y与X的Pearson相关系数为0.7208,Y取对数之后,二者的Pearson相关系数降为0.5063,进一步,令X也取对数,则lnY与lnX再次下降为0.4081;(2)取对数之前,Z与Y之间的Pearson相关系数是0.0011,并不显著,但是Y取对数之后,Z与lnY之间的相关系数变为显著的负值(-0.1812)。对数变换不仅制造出了相关关系,而且还改变了方向。

怎么解释这种现象?变量间相关关系的改变对回归结果会产生怎样的影响?在已发表的大量论文中,对数变换已变得司空见惯,但是对数变换的影响却少人问津。作为Box-Cox变换的特例[1],相关文献主要讨论的是如何进行稳健的两步估计,比如Bickel和Doksum