脏数据的处理方法:例子案例

2020年9月23日18:00:33脏数据的处理方法:例子案例已关闭评论

脏数据的处理方法:举例说明

罗明在给某个客户制作一张数据单,数据单里面涉及两项内容(海运和陆运),文员A记录海运的信息、文员B记录陆运的信息。但是某一天,两人在同一时间段打开了同一张数据单,然后分别录入了自己需要记录的信息,最后保存(文员A先保存,文员B后保存)。过后不久,当文员A再次查看数据单时发现了一个重大问题:自己辛辛苦苦保存的数据不见了!

在文员A与文员B打开数据单时,单据上的数据是一致的,可等到两人分别保存后,由于只有一张数据单且保存时间不一致,就导致一个人保存的数据被覆盖。也许很多人会对数据覆盖的问题嗤之以鼻,认为很好解决,但实际上并不是那么简单的。

这种数据覆盖问题的解决方案并不在少数,总结来说可以分为两种。

(1)悲观锁:任何人打开数据单进行数据记录与修改时,该单据会被锁定,其他人无法再打开并进行编辑,直至数据单被解锁。

(2)乐观锁:任何人都能够打开该数据单进行数据记录与修改,但在保存时需要通过校验,不通过者的数据将被视为“脏”数据,且提示操作者此数据已更新,无法保存。

鉴于该客户需要的数据单是能够重复多次使用的,因此这两种模式都无法从根本上解决这个问题。假如选用方案一,若文员A保存了数据以后,没有及时解锁,那么文员B就无法打开数据单并编辑;假如选用方案二,当文员A保存完后,文员B保存时会被提示“错误”,无法保存。

因此,罗明给文员A回复:“现在的解决方案就是谁先保存谁的数据就能被记录,后保存的人在保存时如果出现‘提示错误,需刷新重填’的提示,则需要等待一段时间后重新填写数据。”从结果上来看,这的确解决了文员A的困境。

然而,文员A却发怒说:“难道就因为我保存早了,这些数据说没就没了,我之前辛辛苦苦的努力就白费了?还有,假如出现我先录入后保存的情况,该怎么解决?”

听完文员A的诉苦,罗明深感自责,因为人家说得在理。数据录入越多的人,需要的时间自然越长,保存的时间也就会靠后。

假如文员A从10点开始录入数据,在10点40结束;而文员B在10点15开始录入数据,在10点30结束。按照罗明的处理办法,文员A的数据会出现录入失败的提示,最后造成越辛苦的人反而越容易出现需要重新录入的情况。

于是,罗明给文员A道歉,并承诺一定找到解决办法。他的解决方法是:每隔一段时间将用户输入的临时数据保存起来,如三分钟保存一次。在保存时即便出现“提示错误,需刷新重填”,也只需要补充部分数据。

罗明的解决办法虽然算不上完美,但是能够从一定程度上解决不少“脏”数据的产生问题。最后,我结合上节中介绍的“脏”数据的种类,为大家总结一下“脏”数据的常规处理方法。

(1)结构化:数据需要结构化。样本过于庞大时,如果想要对数据进行百分百的准确计算,就需要耗费巨大的人力物力,而且得出的结论容易出现片面化。

因此,需要对数据进行缩减,将其变化为可以测量、可以分析的结构,尽可能提高分析的准确率。

(2)规范性:数据需要规范。这么说比较含糊,通俗来说,就是通过规范化的方法,将“脏”数据中合格的部分筛选出来,不合格的部分剔除。

(3)可关联:数据需要产生关联性。如果数据之间相互关联,那么清理“脏”数据时就有了依据,能够凭借相关联的数据,快速定位“脏”数据,并予以清除。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。