脏数据的处理方法：例子案例

2020年9月23日18:00:33已关闭评论

脏数据的处理方法：举例说明

罗明在给某个客户制作一张数据单，数据单里面涉及两项内容（海运和陆运），文员A记录海运的信息、文员B记录陆运的信息。但是某一天，两人在同一时间段打开了同一张数据单，然后分别录入了自己需要记录的信息，最后保存（文员A先保存，文员B后保存）。过后不久，当文员A再次查看数据单时发现了一个重大问题：自己辛辛苦苦保存的数据不见了！

在文员A与文员B打开数据单时，单据上的数据是一致的，可等到两人分别保存后，由于只有一张数据单且保存时间不一致，就导致一个人保存的数据被覆盖。也许很多人会对数据覆盖的问题嗤之以鼻，认为很好解决，但实际上并不是那么简单的。

这种数据覆盖问题的解决方案并不在少数，总结来说可以分为两种。

（1）悲观锁：任何人打开数据单进行数据记录与修改时，该单据会被锁定，其他人无法再打开并进行编辑，直至数据单被解锁。

（2）乐观锁：任何人都能够打开该数据单进行数据记录与修改，但在保存时需要通过校验，不通过者的数据将被视为“脏”数据，且提示操作者此数据已更新，无法保存。

鉴于该客户需要的数据单是能够重复多次使用的，因此这两种模式都无法从根本上解决这个问题。假如选用方案一，若文员A保存了数据以后，没有及时解锁，那么文员B就无法打开数据单并编辑；假如选用方案二，当文员A保存完后，文员B保存时会被提示“错误”，无法保存。

因此，罗明给文员A回复：“现在的解决方案就是谁先保存谁的数据就能被记录，后保存的人在保存时如果出现‘提示错误，需刷新重填’的提示，则需要等待一段时间后重新填写数据。”从结果上来看，这的确解决了文员A的困境。

然而，文员A却发怒说：“难道就因为我保存早了，这些数据说没就没了，我之前辛辛苦苦的努力就白费了？还有，假如出现我先录入后保存的情况，该怎么解决？”

听完文员A的诉苦，罗明深感自责，因为人家说得在理。数据录入越多的人，需要的时间自然越长，保存的时间也就会靠后。

假如文员A从10点开始录入数据，在10点40结束；而文员B在10点15开始录入数据，在10点30结束。按照罗明的处理办法，文员A的数据会出现录入失败的提示，最后造成越辛苦的人反而越容易出现需要重新录入的情况。

于是，罗明给文员A道歉，并承诺一定找到解决办法。他的解决方法是：每隔一段时间将用户输入的临时数据保存起来，如三分钟保存一次。在保存时即便出现“提示错误，需刷新重填”，也只需要补充部分数据。

罗明的解决办法虽然算不上完美，但是能够从一定程度上解决不少“脏”数据的产生问题。最后，我结合上节中介绍的“脏”数据的种类，为大家总结一下“脏”数据的常规处理方法。

（1）结构化：数据需要结构化。样本过于庞大时，如果想要对数据进行百分百的准确计算，就需要耗费巨大的人力物力，而且得出的结论容易出现片面化。

因此，需要对数据进行缩减，将其变化为可以测量、可以分析的结构，尽可能提高分析的准确率。

（2）规范性：数据需要规范。这么说比较含糊，通俗来说，就是通过规范化的方法，将“脏”数据中合格的部分筛选出来，不合格的部分剔除。

（3）可关联：数据需要产生关联性。如果数据之间相互关联，那么清理“脏”数据时就有了依据，能够凭借相关联的数据，快速定位“脏”数据，并予以清除。

登录 找回密码

登录找回密码