样本数据库的数据粒度
与通常意义的粒度不同,样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别,一般它是以一定的采样率从细节档案数据或轻度综合数据中抽取的一个子集。
样本数据库不是一般目的的数据库,它是根据一定需求对源数据的一个抽样。抽样的方法很多,一般是随机抽取。样本数据可以代替源数据进行模拟分析。经验证明,在源数据量很大的情况下,样本数据库的数据量大大下降,源数据库越大,下降的比例也越大。如源数据量的1/100或1/1000,得出的分析结果误差极小。分析的目的并不是在于分析本身,并不要求精确的结果,只需要建立起分析模型或是得到相对准确、能反映趋势的数据,从而验证用户的猜想,为下一步的策略确定方向或对当前分析程序做出相应调整,此时,样本数据库就有用武之地了。
样本数据库可以按照数据的重要程度不同来进行抽取,样本数据库是建立在不同时点上的粒度。