什么是数据清洗(数据清洗的3个主要类型及5个步骤)

seoxin 05-06 9:12 22次浏览

一、数据清洗的定义

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

二、数据清洗的主要类型

1、残缺数据

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

2、错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

3、重复数据

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

三、数据清洗步骤

数据清洗的主要路径如图:

数据清洗的主要类型及步骤

1、对缺失值进行清洗

一般来说,缺失值是最常见的数据问题,处理缺失值也有很多方法,我们需要按照步骤来做,第一就是确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。

2、去除不需要的字段

实际操作中是十分简单的,直接删掉就可以了,不过需要提醒大家的是,清洗数据的时候每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,如果删错数据就会追悔莫及。

3、填充缺失内容

这是因为某些缺失值可以进行填充,方法有三种,分别是以业务知识或经验推测填充缺失值、以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。

4、重新取数

由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。这就是缺失值清洗的步骤。

5、关联性验证

如果你的数据有多个来源,那么有必要进行关联性验证。如果不关联,这个数据据需要我们清洗。

以上就是思迈特软件今天分享的数据清洗相关信息。

  • 暂无推荐