大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

2.2 数据收集的偏差

数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差。