关于对数变换的一个注记
1.4.1 问题提出
统计模型的核心是相关关系而不是因果关系(函数关系,决定论),它重在考查变量间是否存在显著的数量关系,如目标变量(被解释变量)Y的变动与X的变动有关,即X在数量上对Y有一定的预测功能,这是一个相关(或回归)问题但不是因果问题,因为变量X并不一定是Y的原因。因此,在很多计量经济、数据挖掘、机器学习等相关文献中,变量X被称为“预测变量”(predictor),拟合值
在近期的数据预处理过程中,我们遇到了这样的问题:(1)Y与X的Pearson相关系数为0.7208,Y取对数之后,二者的Pearson相关系数降为0.5063,进一步,令X也取对数,则lnY与lnX再次下降为0.4081;(2)取对数之前,Z与Y之间的Pearson相关系数是0.0011,并不显著,但是Y取对数之后,Z与lnY之间的相关系数变为显著的负值(-0.1812)。对数变换不仅制造出了相关关系,而且还改变了方向。
怎么解释这种现象?变量间相关关系的改变对回归结果会产生怎样的影响?在已发表的大量论文中,对数变换已变得司空见惯,但是对数变换的影响却少人问津。作为Box-Cox变换的特例[1],相关文献主要讨论的是如何进行稳健的两步估计,比如Bickel和Doksum