上QQ阅读APP看书,第一时间看更新
5.3.1 数据缺失的类型
数据缺乏主要分为以下3类。
完全随机缺失(Missing Completely At Random,MCAR)指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性,如家庭地址缺失。
随机缺失(Missing At Random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失情况与企业的大小有关。
非随机缺失(Missing Not At Random,MNAR)指的是数据的缺失与不完全变量自身的取值有关,如高收入人群不愿意提供家庭收入数据。
对于随机缺失和非随机缺失,直接删除记录是不合适的。对于随机缺失可以通过已知变量对缺失值进行估计并填充,而对于非随机缺失还没有很好的解决办法。