数据、变量与持久性收入
第一节 数据描述与整理方式
本书所使用的数据主要来源于中国社会科学院经济研究所收入分配课题组在1995年、1999年、2002年对全国城镇居民的住户调查。[1]历次调查的内容包括住户成员个人特征及收入、家庭资产、家庭支出、家庭规模等项。调查的项目构成可见赵人伟、李实和卡尔·李思勤(1999)的附表(三),以后年份的调查都包括这些内容,并有所扩展和细化。这些调查都是在国家统计局的协助下进行的,其中的样本也来自于国家统计局常规住户调查的样本框。
一般地,调查都会产生一些缺失样本,因此需要对所获得的原始资料进行进一步的清理,以符合分析需要。数据清理的基本原则是,剔除缺失样本并尽可能保持足够的样本量。由于研究的目的及研究者的个人差异,对数据会有不同的处理方式,也会产生不同的结果。
本书对缺失样本的清理主要建立在消费支出、收入和个人特征的基础上。数据清理的对象为无法确认的缺失值、不符合逻辑的数值及远离样本主体的离群点(异常值)。对于无法确认的缺失值的判断主要基于调查问卷本身。对不符合逻辑的数值的判断主要通过根据社会经济状况设定相应的上下界进行判断。对离群点的判断则通常会有一些统计方法,如样本标准差估计、中位数绝对离差估计及M-估计[2],但这些方法通常以一定的分布函数为依据。本书对于离群点的认识是建立在邻近样本点的关系的基础上。[3]
在消费方面,我们主要是考虑食物消费支出状况,剔除的依据是全年食物消费额在100元以下。根据生活经验