文章详细页面

非线性纵向数据模型的统计诊断与分析——《社会经济发展过程中复杂动态随机系统的统计分析》成果简介
在线阅读 收藏

东南大学林金官教授主持完成的国家社会科学基金项目《社会经济发展过程中复杂动态随机系统的统计分析》(项目批准号为04BTJ002),最终成果为研究报告《非线性纵向数据模型的统计诊断与分析》。课题组成员有:韦博成、刘应安、张南松、冯予、吕庆哲、康君。

在社会经济发展变化过程中,复杂动态随机系统的统计特性和变化规律,是统计学家非常关心的问题。为了探索复杂动态随机系统的统计特性和变化规律,必须从该类随机系统采集所需的数据,而该类数据往往与时间有关,即所谓的动态性。若数据又是通过重复测量得到的,通常称为纵向数据。纵向数据主要指对同一组受试单元在不同的时间或空间上的重复测量数据。在国民经济和科学技术的很多领域都存在典型的这类数据。对于纵向数据,由于重复测量,因此增加了信息,但重复测量也可能导致组间差异,因而增加了复杂性。为了用线性或非线性模型拟合纵向数据,需要确定一个合理的协方差结构。刻画协方差结构通常需要考虑三种可能因素:随机效应、序列相关和随机误差。因而纵向数据的统计分析需要把回归模型与随机效应、序列相关和随机误差结合起来,是更加复杂但非常现实的数据分析问题。因此,社会经济发展过程中复杂动态随机系统的统计分析已经成为当今统计学研究的热门课题。

该成果主要研究在社会经济、生物等领域的发展变化过程中,复杂动态随机系统的统计分析方法,由于时间的限制,着重研究社会经济、生物等领域的发展变化过程中的纵向数据的统计分析方法,尤其是上述纵向数据的统计诊断方法。其成果主要内容如下。

(1)刻画了具有正态随机误差而无随机效应的非线性(包括线性)纵向数据模型的协方差结构。此协方差结构包含组内异方差和组内相关性。然后对组内异方差和组内相关性及组内自相关系数的齐性进行统计诊断,得到若干诊断统计量。诊断纵向数据的协方差结构的任务之一就是方差分量检验,它包括组间或组内异方差的检验、自相关性的存在性检验、随机效应的存在性检验、组间自相关系数的齐性检验等诊断问题。该成果首先研究了非线性固定效应模型的受试单元内部的异方差检验;其次,分别研究了具有自相关误差和一致相关误差的非线性纵向数据模型的异方差和自相关系数的齐性检验。通过统计检验,即可确定一个较合理的协方差结构。

(2)刻画了具有正态随机误差和随机效应的非线性(包括线性)纵向数据的协方差结构。此协方差结构包含受试单元之间和受试单元内部的异方差和组内相关性,然后对组间、组内异方差和组内相关性及组内自相关系数的齐性进行统计诊断,得到若干诊断统计量。这种情形比第一种情形更复杂,研究也更具有挑战性。模型的协方差结构由随机误差的方差、随机效应的方差及各种相关性构成,在构造诊断统计量时,以上各因素均要考虑。该成果首先研究了具有独立误差的非线性随机效应模型的受试单元内部、受试单元内部的异方差检验;其次,研究了具有自相关误差的非线性纵向数据模型的异方差和自相关系数的齐性检验;再次,利用模型选择准则在备选的协方差结构中确定一个最合理的协方差结构。

(3)指数族纵向数据的偏离名义离差的诊断问题,即检验随机效应的存在性检验问题。指数族纵向数据模型是高斯回归模型的推广,离散型指数族模型包括二项数据模型、Poisson数据模型和负二项数据模型等,离散型指数族模型包括正态数据模型、伽玛数据模型和逆高斯数据模型等。对该模型的偏离名义离差的诊断问题的研究,可以解决许多实际问题,特别是离散型数据偏大离差或偏小离差的诊断。该成果首先研究了logistic非线性和对数非线性模型的变离差检验;其次,分别对离散型和连续型指数族分布研究了基于纵向数据的非线性模型的变离差检验,首次研究了随机效应存在时,组间方差(随机效应的方差)的齐性检验。检验功效是评价检验优劣的重要指标,但是在一般情形下要求出检验的精确功效是非常困难的甚至是不可能的。该成果研究了诊断统计量的渐近局部功效,得到了渐近局部功效的表达式,由于指数族纵向数据包括具有正态随机误差而无随机效应的非线性纵向数据模型和具有正态随机误差和随机效应的非线性纵向数据模型,因此作为特例,前两种模型的各种诊断问题的渐近局部功效也可相应得到。

(4)对0较多的纵向计数数据模型的结构进行了影响分析,包括数据删除影响分析和局部影响分析。在经济、农业、道路安全、生物医学、公共卫生等众多领域的数据分析中,计数数据是十分常见的情形。对此类数据,常利用Poisson回归模型或二项回归模型来揭示作为响应变量的计数数据和一组协变量之间的内在联系。然而,在某些数据中,往往含有比普通Poisson回归模型或二项回归模型更多的取值为0的数据。当观测到额外的取值为0的计数数据时,如果仍用普通Poisson回归或二项回归模型进行拟合,则对于计数数据中取值较小的数据的预测将会产生较大误差。Zero-Inflated Poisson(ZIP)模型和Zero-Inflated二项(ZIB)模型是最常用的处理含0较多的两类计数数据模型。由于同时存在ZI和随机效应,很难应用传统的诊断方法进行影响分析。该成果应用基于EM算法的Q函数方法,研究了模型的影响分析问题,在这里,将随机效应看作缺失数据,引进EM算法和Laplace逼近,从而基于完全数据对数似然函数的条件期望进行影响分析。该成果分别得到了基于数据删除模型的诊断统计量以及在各种扰动方案下基于正则曲率的诊断统计量。

(5)诊断功效的Monte-Carlo模拟评价。诊断功效是评价诊断统计量的重要指标,但精确地求出纵向数据诊断统计量的检验功效是非常困难的,该成果除了推出渐近局部功效函数外,利用Monte-Carlo模拟方法,对建立的诊断方法进行功效模拟,以说明统计量的诊断能力。

对复杂动态随机系统的数据和模型的统计推断特别是对纵向数据的统计推断已经成为当今统计学研究的重要热门课题,这是一个很新颖、极具挑战性的研究方向。国内外不少学者正在努力进行探索。但是就方差齐性的统计诊断及异方差存在时模型参数和方差参数的统计推断而言,国内涉及这一方向的研究人员较少。特别是由经典的正态非线性纵向数据模型发展到随机误差为非正态的广义非线性纵向数据模型是国际上20世纪90年代初才开始的新方向,目前国内尚未有人涉及这一方面的研究。该成果关于广义非线性模型的变离差的统计诊断方面的研究及对0较多的纵向计数数据模型的结构进行了影响分析的研究填补了国内空白。

帮助中心电脑版