贝叶斯网络参数学习中的连续变量离散化方法研究(2)

贝叶斯网络的学习分为结构学习和参数学习两个方面。参数学习中，通常假定所有的变量都是离散变量或者是符合高斯分布的连续变量，但在现实世界中，许多要应用于贝叶斯网络领域的数据并不符合这两项分布。所以对于参数学习研究的一大问题就是如何将连续变量进行离散化，使得参数学习的研究有效进行。
本文的主要工作是采用不同方法对原始数据进行离散处理，并构建相对应的贝叶斯网络以供后期预测分析使用。本文使用的UCI数据库中的transfusion数据集，采自台湾新竹某血液采集服务中心，具体工作包括以下三部分：
（1）利用MATLAB采用三种不同（等宽法、K均值法、ChiMerge法）方法对数据进行离散化处理；
（2）利用离散后的数据运用Netica进行相应贝叶斯网络的构建，并进行参数学习；
（3）利用构建的贝叶斯网络进行简单的预测分析。
2 贝叶斯网络概述
2.1 贝叶斯网络简介
贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模型(directed cyclic graphical model)，是一种将概率统计应用于复杂领域，以此帮助人们进行不确定性推理和数据分析的工具。贝叶斯网络于1988年由Judea Pearl首先提出，最先起源于人工智能领域，近年来随着理论的完善和技术的发展，也对很多其他领域产生了重要影响。它是一种模拟人类推理过程中因果关系的不确定性处理模型，用来表示变量集合的连接概率，本质上是一种基于概率的不确定性推理网络，提供了一种表示因果信息的方法。贝叶斯网络极大简化了决策机制中所需建立的信息和联系，减低了问题的求解难度，适用于因问题太过复杂或无法用专家系统和决策支持系统自动构建的不确定性领域。贝叶斯网络一般包括两部分，即贝叶斯网络结构图和节点的条件概率表（CPT）。
2.1.1 贝叶斯网络拓扑结构
贝叶斯网络的拓扑结构是一个有向无环图(DAG)，由节点、有向连线和节点的条件概率表组成，其中节点表示随机变量，包括可以观察到的变量、隐变量和未知参数等，有向连线代表节点间的因果依赖关系。节点间以单箭头进行连接，箭头的两端其中一个节点是“因(parents)”，另一个节点是“果(children)”，两节点就会产生一个条件概率值。每个节点都有一个条件概率表，表示该节点相对于其父节点的所有可能的条件概率。如图2.1.1所示，单箭头连接节点E和节点H，并由E指向H，表示节点E影响节点H，权值用概率P(H|E)表示。

图2.1.1 贝叶斯网络基本结构
2.1.2 条件概率与贝叶斯网络
贝叶斯网络结合了概率论和图论的相关知识，它以图论的语言直观明显地揭示问题的结构，又按照概率论的原则利用问题的结构来降低推理的复杂度。这也是近年来贝叶斯能够在众多不同领域得到广泛应用的根本原因。条件概率是贝叶斯网络中一个至关重要的概念。基于概率计算的原理和相关规则，利用变量之间的条件独立关系，可以将联合概率分布分解成多个复杂度较低的概率分布，从而降低模型的复杂度和计算的复杂度，提高推理效率。这给了人们一个解决大型复杂的不确定性问题提供了一个简捷有效的新方法。下面简要介绍贝叶斯网络中概率论方面的基本知识：
（1）联合概率分布
对于单个的随机变量X，可以用概率函数P(X)来描述它的各个状态的概率。而对于多个随机变量，则可以用联合概率分布P（）来描述各变量所有可能状态的组合的概率。显然所有组合的联合概率分布的加和为1，即：。贝叶斯网络参数学习中的连续变量离散化方法研究(2):http://www.youerw.com/jisuanji/lunwen_18940.html