数据挖掘和数据仓库的关系
在大多数情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中提取进行数据挖掘的数据有许多好处。
数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致问题都已经被解决了。
数据挖掘库可能是数据仓库一个逻辑上的子集,不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那最好建立一个单独的数据挖掘库。
当然,对于数据挖掘,数据仓库不是必需的。
建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导入到一个数据仓库内,这是一项巨大的工程,可能要用几年的时间、花上百万元才能完成。
如果只是为了数据挖掘,则可以把一个或几个事务数据库导入到一个只读的数据库中,就把它当做数据集市,然后在它上面进行数据挖掘即可。