1,关联规则的采样
挖掘关联规则的任务通常与事务处理与关系数据库相关,该任务需要反复遍历数据库,因此在大数据集上将花费大量的时间。有很多的算法可以改进关联规则算法的效率与精度,但在精度保证的前提下,采样是最直接与最简单的改进效率的方法。
2.分类的采样
分类一般分为三种类型:决策树、神经网络及统计方法(如无偏差分析),在这些算法中均有使用采样的案例。分类的采样一般有四种,一种是随机采样,另外三种是非随机采样,分别是“压缩重复”、“窗口”及“分层”。
3.聚类的采样
在聚类中进行采样有若干的用途。有些聚类算法使用采样进行初始化工作,例如,利用采样得到的样本得到初始化的参数,然后再对大数据集进行聚类。当处理大数据集时,需要降低算法使用的空间。为了得到较好的聚类,根据数据的分布情况需要采用不同的采样方法。随机采样仍然是一种常规的方法,在随机采样忽略了小的聚类的情况下,一般采用非随机采样的方法。非随机采样的方法中最常用的是分层采样。例如,在密度差别很大的数据集中,根据密度的不同,采样的样本数量可以不同,在密度较高的区域采样的次数少一些,而在密度稀疏的区域,采样的次数多一些。
4.扩充(Scaling-Up)的数据挖掘算法的采样
扩充是指利用已有的数据挖掘算法能够高敛地处理大数据集。当数据挖掘的算法初期是处理小数据集的情况下,处理大数据集就会受到限制。在这种情况下,一般会采用分而抬之的方法:将大数据集分解成较小的互不重叠的数据集,利用己有算法进行处理,然后,将小数据集得出的结果合并成最终的结果。需要注意的是,这种方法等价于将困难转嫁到合并步骤,即需要复杂的处理才能得到正确的结果。因此,整体的复杂性没有降低。