通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。
第二、异常值分析
产生原因:
业务系统检查不充分,导致异常数据输入数据库
影响:
不对异常值进行处理会导致整个分析过程的结果出现很大偏差
解决办法:
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。
第三、不一致值分析
产生原因:
不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。
影响:
直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结果。
解决办法:
注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数据抽取最新数据
第四、重复数据及特殊数据
产生原因:
业务系统中未进行检查,用户在录入数据时多次保存。或者因为年度数据清理导致。特殊字符主要在输入时携带进入数据库系统。影响:统计结果不准确,造成数据仓库中无法统计数据
解决办法:
在ETL过程中过滤这一部分数据,特殊数据进行数据转换。
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。更多数据相关干货内容可关注数字化转型网!返回搜狐,查看更多