Ragic 博客
企业电子化的专家 Ragic 教你如何利用各种软件、
云服务让公司快速升级!
加入 Ragic 企业电子化的行列!
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic
Facebook X YouTube
云数据库
博客
关于Ragic
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic

如何快速移除或标记 Excel 中的重复数据?

作者:Lillian Huang

前言

Ragic 是一个可以无缝集成 Excel 的云数据库平台(支持汇入汇出 Excel ),这使得我们在协助客户排除障碍时,有时会跟 Excel 打打交道,也累积了一些 Excel 常见问题和疑难杂症处理的小技巧。

我们先前陆续跟大家分享了Excel 檔原本的英文 A,B,C 栏变成数字 1,2,3的原因和处理方法、以及“如何删除 Excel 的空白列”,这次要来谈谈“如何在 Excel 移除重复数据”。

Excel 提供了快速的方式,可以简单几步骤把重复数据删掉、或把重复数据标记出来(让人检视过再决定是否删除),方法本身不难,但还是有各自要注意的地方。以下逐一说明:

Excel 移除重复值、标记(找出)重复值的功能一览

标签名称
(工具条上的归类)
功能名称效果适合情境
数据移除重复项
直接删掉选取字段值重复的数据(保留第一笔)适合规则明确、不需要另外检视、经常需要运行删除的流程
常用条件式格式:
标记重复值

把字段值重复的地方标记上色最常见:适合需要额外检视、决定去留的状况;适合单一字段比对
数据进阶筛选:
筛出唯一值

隐藏重复值,只显示第一笔(但没有删掉重复值)适合只需要“看起来不杂乱”的状况

① “数据”标签 > “移除重复值”

第一种是最直接、方便的“移除重复值”方法。只要用鼠标选取好表格范围、在“数据”标签找到“移除重复值”单击钮、单击“确定”,三步骤就清掉重复值了。

不过,最方面的方法有时也最“危险”,因为在数据被删掉之前,你其实没什么机会去检视系统认定的“重复值数据”是哪些,万一删除范围选得不对、比对重复规则没选对,不该删的数据就会不小心消失了。

“移除重复项”功能要注意的地方主要有三项:

一,起初框选字段范围时,选的是“之后移除重复值时的删除范围”(不是“比对重复值依据”)。以上图为例,假如你想把重复报名的学生数据删掉,框选范围要包括 A, B, C, D 栏,才能把重复的学生数据整笔删掉。不能只选“B 栏”(学号),这样只有学号那栏会被删掉、对应的其他字段(例如重复的学生姓名等)都还会在,会数据大乱(部分学号跟姓名的对应错误)。

二、点“移除重复项”后会退出窗口让你确认“比对重复值”的范围。此时,若要比对的只有单栏(例如学号),但你却维持默认的 A,B,C,D,...栏全都勾选的状态的话,会变成“A, B, C, D 全部字段值都是重复的,才移除”。同样以上图的例子来说,我们想删掉的是“重复报名的学生”,这些学生重复报名时,每次会获取不同的报名编号,但他们是同一个人,是我们认定的“重复数据(报名编号不一样,但学生是同一个人”,此时如果要求“A栏 报名编号”也要一样才能认定为重复数据的话,就会有误了。

三、“移除重复项”基本上会直接留下重复值的第一笔数据,移除其他后面的。这时假如希望依照特定的规则来决定数据去留(例如比较完整的一笔数据,如备注字段有值),或希望一笔一笔检视决定的话,就比较不适用于这个方法。

个人建议,要使用“移除重复值”这个功能,最好在你已经对此功能的运作机制很了解,或是常常需要运行同样一种操作,SOP已经创建好的前提下做。做之后,记得检视一下有无问题,有的话赶快 Control + Z 恢复数据。如果要更万无一失,可以在做之前先备份一份原本的数据。

② “常用”标签 >“条件式格式设置”>“醒目提示单元格规则”>“重复的值”

第二种方法,是比较迂回一些,但一般人比较不会出错的方式,如果没有什么特别的想法、重复数据量也不大的话,建议可以用这个方法来做。这个方式是运用 Excel 很常见的“条件式格式”,先把重复值标注上色。接着就可以依照自己的需求,一笔笔把数据处理(删除)掉。这个方法也适用于不确定自己有没有重复数据的状况,设置之后有字段上色就代表有重复值,没有就代表没有重复值。

这里要注意的是:在选取“条件式格式设置”之前,一样要先框选运行这个功能的范围(也就是“条件式格式设置”的范围。而条件式格式设置中的“重复值”指的是单一字段的重复值,不提供多个字段综合比较是否都重复的功能,因此如果你框选的是多个字段,会像下图这样,每个字段有重复值的都标起来,这不一定是你想要的。

因此,如果使用“条件式格式设置”的方法,又希望比对的重复值是“多个字段值都重复才标记”的话,建议多开一个“判断用字段”,用 Excel 的字符串公式(&)把多个字段值连在一起,然后框选判断用字段来设置条件式格式即可。

③ “数据”标签 > “进阶(筛选)”> “不选重复的纪录”

第三种方法,严格来说不是删除重复数据的方法,而是一种“筛选、隐藏重复数据”的方法。选择要比对重复值的字段后,在“数据”标签“筛选”区块点“进阶”,勾选“不选重复的纪录”,就可以筛选出该字段不重复的数据(隐藏该栏含有重复值的整列数据)。

此时,被筛选掉 / 被隐藏的数据并没有被删掉,只要点一下“清除筛选”或在隐藏的列与列之间点“撤销隐藏”,就会再现身,适合需要保留源数据、公式计算时需要源数据,但不想看到太杂乱数据的状况。

备注:决定“重复数据”与“删谁留谁”的判准

前面的教学里,不管你选择哪一种方法,其实都需要在操作步骤中,决定要怎么比对“重复数据”,以及“删谁留谁”的判准,以下针对这些部分做一些补充说明。

(1) 重复数据的定义:是“整列所有字段都和别人重复”,还是“只要单一字段有重复值就算重复数据”?

不同情境下,“数据重复”的判准可能有所不同。有时候,你想处理的重复数据,是某个特定字段字段值重复的数据,但有时候,你想找的是“每一个字段都重复、或是特定几个字段都重复”的“重复数据”。

在 Excel 运行“找出重复数据”和“移除重复数据”时,系统会依据你选取数据的范围,决定是要认“单一字段的重复值”还是“一组字段是否全都重复”,因此你必须先弄清楚自己要找的是哪一种。如果没想清楚就随便去框“重复值”的范围,很可能反而把数据搞乱了。以下举例说明不同情境下两者的差异。

假设某活动开放学生报名参加,因为报名管道多元,学生可以跟导师报名、透过所属社团报名,汇整报名数据时发现同一个学生透过不同管道重复报名,导致学生数据重复。此时,要删重复数据,只要把报名数据里“学号”这个字段的重复值找出来,删掉含有重复值的整笔数据(留下一笔)就可以了。

(如下图:只要“学号”这栏重复,就代表数据重复了,只要抓出单一字段值重复的就好)

假设今天处理的是订单数据,负责汇整订单的员工不小心重复从同一个来源贴上了某些数据,要删除重复订单数据。此时,这些数据的“订单编号”可能是重复的,找出“订单编号”字段重复的数据来处理就好:

但假如今天是负责打单的员工不小心重复登打重复的订单,重复数据的订单编号是不同的,那么如果从重复订单编号下手,你会一笔都找不出来;而单凭“业务”、“客户名称”或“订单日期”字段,也没办法判断订单是否重复,因为同一个业务接到复数订单、同一个客户多次下单、同一天有多笔订单,都是有可能的,任意拿单一字段当判准,可能把业务的业绩都删掉了。

这时,我们必须依照实际情境,设计多个字段的比对方式。假设这家公司同一天同个业务不会接到两笔同个客户下的单,那么,可以认定当“订单日期”、“客户名称”、“业务”三个字段值全都一样时,这是误 KEY 的重复订单,要处理。

此时,我要做的就会是一次比对不同笔(列)数据的多个字段(例如前面讲到移除重复值方法时,选择比对重复值字段的范围要包括多个字段),或是用字符串公式把这些字段串成一个辅助字段(例如这里的说明),比对辅助字段的值是否重复来判断重复数据。

(从上面的讨论其实可以看出,当一笔数据含有“独特值字段”如学生编号、订单编号时,很多时候比对或辨认数据时以那个字段为准就可以了;反之如果没有的话,就得自己用字符串公式或其他方式,另外制造出一个独特值字段来当判断基准。可以看出处理数据时,独特值字段的好用之处)

(2) 删谁留谁要注意

找出重复值并删除的过程中,“哪一笔数据该删”其实也是该注意的事。Excel默认的“移除重复值”功能,默认是保留重复值的第一笔数据、移除之后出现的。

如果“重复数据”是两笔完全一样内容的东西,那么不管留哪一笔下来都可以,这样用没有问题。但如果是基本信息重复,但有的数据是完整版(有比较详细的备注或地址等信息)、有的是精简版,要留比较完整的数据的话,就得注意,因为 Excel “移除重复值”功能的规则就是“留第一笔”,此时你就不该直接“移除重复值”,可能要考虑标号重复值之后手动处理(也就是利用条件式格式来处理)。

博客背后使用 Ragic! : 最强大的 No Code 企业电子化工具
把数据放在Excel上不只是拖累团队的行政效率,他也很容易出错并且无法进行任何内控。
当您的团队成长时,使用Excel管理数据就会越来越痛苦。
创建你们的第一个云数据库!

马上登记
免费试用 Ragic!

用 Google 帐号登记

立即科技 Ragic, Inc.
02-7728-8692
info@ragic.com
台北市中正区南昌路二段81号9楼