这些数据清理工作在Excel中有更好的方法(一)


Exce中有很多方法可以帮助我们进行数据清理工作,但是这些方法都有一个缺陷,那就是基本上都是一次性的,不能从源数据开始建立自动化的数据处理分析流程,这就导致了我们的工作效率不能得到根本的提高。
例如,假设我们需要根据下面这份数据得到不重复的产品列表然后进行相应处理:

传统上你需要使用的Excel的“删除重复项”:

这个过程很简单,但是如果源数据变化了(增加了数据行,或者修改了产品列的内容),你就需要手动重复一下这个工作,这就导致了这个过程不能被自动化。或者需要用VBA来完成,无形中增加了难度。
Excel中这种类型的工作还有很多,我梳理了一下,逐个给大家介绍做好的方法。


首先我们来看上面的这个删除重复项的工作。
我们可以通过Power Query来实现这个工作,实现方法请看下面的动图:

这个方法也很简单,而且还有一个好处,就是这个过程完全是自动化的。如果我们在源数据中新增加了数据行,那么只要在这个不重复列表中刷新就可以了:

左表中黄色行是新添加的数据行,只要点击刷新,结果就自动更新了
如果你要很多这样的结果表,也可以在Excel中统一刷新:

当然,在Power Query中还可以用其他的方法实现。下面这个方法可能更有启发性:

这里我们使用的是组合,不光可以得到不重复列表,还可以得到汇总数据,实际上类似于用透视表来实现。


分列也是常用的数据清洗方法,下面是传统的方法:

这个方法同样不能进行自动化处理。但是我们可以使用Power Query完成同样的工作:

这个分列跟Excel中的分列是一样的,所不同的是这个过程完全是自动化的。


需要填充的场景是这样的:

传统的填充方法是这样的:

方法很巧妙,但是仍然不能实现自动化工作,如果这个组织结构发生了变化,这个过程就需要重新再来一遍。
使用Power Query可以更加简单的实现这个需求,并且是完全自动化的工作:


今天介绍的这三个数据清洗工作,在Excel中都有比较简单或巧妙的处理方法,但是使用Power Query来完成的话,可以使我们的数据处理工作完全自动化,即只要源数据发生了变化,我们的这个操作过程可以自动执行,只需要点击一下刷新即可。
Power Query是一个非常强大和灵活的数据处理工具,从操作过程和菜单上也可以看出,同样的功能,在Power Query中提供了更加灵活的选项,适应性更强。强烈推荐大家使用Power Query来进行数据处理工作。(实际上,有一些数据分析和报表生成的工作,使用Power Query也可以胜任)。

在Excel 2016中,Power Query改名为“获取和转换”,可以在数据选项卡下找到。关于如何在Excel 2013中可以激活此功能,可以阅读“Excel Power BI系列文章”。
关注本公众号,点击底部菜单“联系客服”,与客服取得联系,索取“更好的数据清洗方法(一)”案例文件

