Apriori算法虽然好用,但是当数据量十分庞大的时候,效率是相当低下的,由于我的计算任务十分紧张,所以想有什么方法可以优化一下效率问题么?我也简单思考了一下,大体想出如下方法。
1、在进行Lk∞Lk联结运算的时候,这个嵌套两层循环的优化是一个十分重要的方面,频繁项集咱们按顺序排序之后,就可以这么来写:
for i=1:k-1
for j=(i+1):k
%省略代码
end
end
这样一来,每次循环的速度会变得越来越快。
2、就是判断支持度的问题,按算法的顺序来说,应该是先进行计算候选集C,然后在计算候选集C的每个规则支持...
Apriori, CVPR, 关联规则, 数据挖掘, 机器学习阅读全文
这两天的实验用到Apriori算法,记不清是怎么计算候选集的了,搜索资料想起来是通过“联结”来计算的,例如{2,3}{3,4} 右左都有3,所以做连接形成{2,3,4}。 但是如果{2,3,4}支持度大于阈值就行了么?如果不能推出{2,4}怎么办?要把{2,3,4}计算子集再看么?这样岂不是太麻烦,还是“联结”操作已经解决了这个问题? 其实在程序中还是要求子集看看是否子集是频繁项集里面的。
关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜...
Apriori, 关联规则, 数据挖掘, 机器学习, 特征提取阅读全文



最新评论
我想问问 这个spider的
高安唱的一生无悔 ,你听听
:?: 看不懂英文啊 。。。
师兄你好,我也是山大软件学院
hi,你好博主,看到这个DE
还需要用SVN或Git,吼吼
你好,我用的你工具包画出的r
这本书应该不错,感谢分享!不
可是丕继学长?
您好,我对opencv内的,