模糊关联规则知识发现算法研究+文献综述(4)

定义2：假如在交易的数据库中出现比例的交易记录包含，称为关联规则“ ”具有支持度，描述为：support ，最小支持度记作为min_sup。
定义3：假如在交易的数据库中出现比例的交易记录满足“若包含A就包含B”条件，称关联规则具有置信度，描述为：confidence ，最小置信度记为min_conf。满足最小支持度和最小置信度的关联规则称为强关联规则[4]。
定义4：数据项的集合称为项集(itemset)，包含个数据项的项集称为项集。假如设定的最小支持度min_sup与交易数据库记录总数的乘积小于一个项集在数据库中的出现的频度，则该项集符合最小支持度阀值，称该项集为频繁项集[4]。
3.2 关联规则的几个度量值
现实生活中，关联规则应用的例子很多。零售业是关联规则应用的主要领域,其中一个比较经典案例就是“啤酒与尿布”的关联发现:知识发现人员通过对商场交易的数据进行分析后, 结果他们发现了这样的一条关联规则就是“当买啤酒的男顾客当中有大约七成的顾客会随便买尿布”。知识发现人员对这些信息进一步深入的分析发现, 原来这些孩子的父亲会在自己买啤酒的同时, 也常常会顺便给自己刚出生不久的子女购买一些尿布。通过这样的调查发现研究,从而给商场工作人员提供了一些有用的知识信息, 让他们通过改变商品之间的摆放位置，进而方便购物者的选购。
一个关联规则的属性一般用四个参数来描述：
1.支持度(Support)：关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比，记为Sup(X→Y)=P(X∪Y)。反映了X和Y中所含的项在事务集中同时出现的频率。如果某天共有1000个顾客到商场购买物品，其中有100个顾客同时购买了啤酒和尿布，那么上述的关联规则的支持度就是10％。
2.置信度(Confidence)：关联规则的置信度（也称可信度）是数据集中包含X和Y的交易数与包含X的交易数之比，记为Conf(X→Y)=P(X/Y)，即置信度反映了在包含X的事务中，出现Y的条件概率。如上面所举的啤酒和尿布的例子，该关联规则的置信度就回答了这样一个问题：如果一个顾客购买了啤酒，那么他也购买尿布的可能性有多大呢？在上述例子中，购买啤酒的顾客中有70％的人购买了尿布, 所以置信度是70％。
3.期望可信度(Expected confidence)：设D中有e％的交易支持数据项集B，e％称为关联规则A→B的期望可信度。期望可信度描述了在没有任何条件影响时，数据项集B在所有交易中出现的概率有多大。如果某天共有1000个顾客到商场购买物品，其中有200个顾客购买了尿布，则上述的关联规则的期望可信度就是20％。
4.作用度(Lift)：作用度是可信度与期望可信度的比值。作用度描述数据项集A的出现对数据项集B的出现有多大的影响。因为数据项集B在所有交易数据库中出现的概率是期望可信度；而数据项集B在有数据项集A出现的事务中出现的概率是可信度，通过可信度对期望可信度的比值反映了在加入“数据项集A出现”的这个条件后，数据项集B的出现概率发生了多大的变化。在上例中作用度就是70％/20％=3.5。
可信度是对关联规则的准确度的衡量，支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性，显然支持度越大，关联规则越重要。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。
期望可信度描述了在没有数据项集A的作用下，数据项集B本身的支持度；作用度描述了数据项集A对数据项集B的影响力的大小。作用度越大，说明数据项集B受数据项集A的影响越大。一般情况，对人们有用处的关联规则其作用度全部应大于1，因为只有当的期望可信度比关联规则可信度小时，才能说明A的出现对B的出现是有促进的作用，反之，如果当作用度小于1时，说明这样的关联规则没有什么意义。模糊关联规则知识发现算法研究+文献综述(4):http://www.youerw.com/tongxin/lunwen_1529.html