数据处理中遇到的问题有许多解决办法,但大多数办法都是治标不治本的,而且需要耗费大量时间、人力与物力。要想从根本上解决数据处理过程中的问题,还需要做好数据处理的规范化工作。简单来讲,数据处理就是要约束输入、规范输出。
约束输入
作为数据分析师的你永远也无法确定用户会输入哪些值,所以一定不能给用户太多的发挥空间,也就是不能给用户太多的输入选项,要做好相应的约束工作。
例如,需要用户填写的数据,要在系统中设置为“必填选项”;有固定数据选项的,要提供列表、图表、数字等让用户选择,避免用户手动输入;在进行数据记录时做好检查,如果出现格式错误或数值不在规定范围内,就直接以报错的方式提醒用户重新输入;设计录入表单时尽量细致化,例如输入地址信息时,将地址分成国、省、市、区、详细地址等多个输入项,避免拆分等。
这些工作都能够对数据输入起到很好的约束作用,以淘宝购买iPhone X产品为例,为大家演示一个约束输入的情景。
淘宝的约束输入能够最大限度地保证后台处理数据的便捷,确保数据处理是一项可完成的工作,同时也减少了用户数据输入的时间,给用户带来更好的体验。
规范输出
针对同一个指标,如果在每张报表中的表述都不一样,那么对于企业来说,只会造成不必要的浪费。为了避免这种情况的发生,一般都要对输出口径进行规范。
例如,要做一个企业级别的数据库,企业中的大部分人力资源数据、营销数据、管理数据等都要在数据库中备案;在需要这些数据的时候,数据库通过表格、图形的形式将这些数据展示出来,为数据分析师提供参考。
图5-6 小米手机的机型及价格图表
上图中列举了2018年3月份以前小米所有机型的手机及购买价格,用户可以从中获取自己想要的信息。如果想要购买1000元以下的手机,用户可以选择购买红米系列产品,比如红米Note 4、红米Note 4X、红米4A等;如果想要购买1000元到2000元的手机,用户可以选择小米5X、小米5S、小米5等;如果想要购买2000元以上的手机,用户可以选择购买小米MIX、小米6、小米MIX2等。
这张数据图能够规范小米手机数据的输出,使得各项数据之间不会出现数据重复、差异过大等情况,同时也能帮助数据分析师得出一个较为直观的结论。
以上就是关于数据处理的两个原则。在这里需要提醒各位数据分析师的是,这两个原则在开始数据处理工作前一定要掌握,越晚学习,数据处理时遇到的困难越多。