模糊关联规则知识发现算法研究+文献综述(6)

4.2 模糊集和模糊隶属函数的建立
将数据集中的全部有关属性用模糊属性来表示从而建立我们所需要的模糊集，并且每一个模糊属性的包中有许多模糊值，其中每一个模糊值都会有与其所对应的模糊集。一个我们已经确定的属性值关于一个模糊属性集的隶属度我们可以用模糊隶属函数来表示。一个属性值不是唯一隶属一个模糊值，而是能隶属于若干个模糊值，并且能对应若干个隶属度。例如图表1所示，事务的数据库，属性 ( ， )。
表1 示例数据库
   Ptcp（%）   Pudp（%）
t1   97.2   0.6
t2   98.5   0.2
t3   96.6   0.9
t4   94.4   0.3
对于每个属性我们都可以分别将其划分为多个模糊集，如属性和属性我们就可以划分为两个模糊集：高(high)和低(low)。数据集的事务T的数据值我们可以用来表示，即第i行j列的数据；表示数值对属性的第k个的模糊集的隶属程度。对表1所示的数据库,在计算它各数据项隶属度之后,数据库已经被转换为如图表2所示[6]。
表2 　数据库中的事务对各个模糊属性的隶属度表
   Ptcp   Pudp
   Ptcp=high   Ptcp=low   Pudp=high   Pudp=low
t1   0.7   0.2   0.6   0.4
t2   0.9   0.1   0.2   0.7
t3   0.5   0.4   0.9   0.1
t4   0.3   0.7   0.2   0.8
在本文中，属性集中的某属性的隶属度函数其变化我们用二次抛物线来表示，其形式为：
定义某参数值，，，。其中，x，y，z分别让其在正常的网络状态下来获取多组网络数据中该属性值的平均值、最小值和最大值。然后用该参数来建立我们想要的函数，平均值y点在Low和High的隶属度都为0.5。采用上述我们所用的方法得到其属性的2个模糊集合和模糊隶属度函数[6]。
4.3 模糊关联规则的概念
我们可以用这种形式来表示模糊关联规则，模糊关联规则所要表达的涵义为：当属性X是A时，我们就可以得到Y就是B，其中和为属性集合，A和B是对应与X、Y中属性的模糊集。
以往的关联规则大多是基于Apriori算法的布尔型关联规则知识发现算法，数据集中的属性为非“0”即“1”的布尔型数据。然而在我们实际工业生产中，我们所挖掘的有用数据绝大部分都是量化属性，所以运用传统的关联规则不能有效的得到我们所需要的数据。
传统关联规则挖掘存在一个关键问题就是如何对连续属性数据进行划分。如果我们将区间划分的非常细，那么我所得到区间中的个数就会非常少，不能达到我们所期望的支持度，当我们将区间划分的太广，又很难满足置信度。对于这样的问题我们通常采用离散化数据集，但是采用这种离散化数据集的方法硬性的边界划分往往存在着“边界过硬”的缺点，尤其是在离散的区间划分错误的情况下更容易产生数据的离散划分的错误，让我们所得到的规则不正确。
然而当我们引用模糊关联规则却能够很好的解决这一问题，我们可以将离散区间的边界进行模糊化，将每一条的记录数据都按照一个的概率来划分到各个不同区间。这样对于某个数据点，它不再是唯一的属于某一特定的区间，而是分别以概率形式属于多个区间[7]。
4.4 模糊关联规则知识发现算法模糊关联规则知识发现算法研究+文献综述(6):http://www.youerw.com/tongxin/lunwen_1529.html