适合大数据分析MLCS算法的设计与实现(6)

证明：通过(3-3)，能够找出(i,j)的所有直接后继匹配点 (。根据方法(3-1)，TX(k,i)是字符序列X中的之后关于CH（k）最近的匹配字符位置，TY(k,j)也是同样意思。这就意味着匹配点(包括了(i,j)所有的直接后继匹配点。通过重复上述操作，能得到(i,j)的所有后继点。

很明显，(是字符序列X,Y的初始匹配点。通过定理2，可知从初始匹配点出发，能够得到所有匹配点和他们对应的层次。

3。1。2 裁剪操作

在产生后继匹配点的过程中，需要用裁剪操作出去不能产生LCS的匹配点，从而能减少搜索的空间和提高效率。

裁剪操作1：如果在相同一层，有两个匹配点(i,j)和(k,l)满足(k,l)>(i,j),移除(k,l)并不影响算法的正确性。

基本原理：移除(k,l)的理由如下。假设两个匹配点（i,j）和（k,l）是通过上一层匹配点生成的。让LCS通过，这里代表。同样的，让LCS通过，这里代表。假如，(k,l)>(i,j),根据定理2，(k,l)一定在(i,j)之后产生。存在对应(k,l),假如和都是根据(k,l)产生的最长公共子序列，,q-s=r-(m+1)，q=r+s-(m+1),s>m+1,则q>r。因此并不在LCS中，可以删去。

剪裁操作可以移除所有的无用的匹配点。在每一层的匹配点产生后，算法会检查所有同一层的新产生的匹配点，比如(i,j)和(k,l)满足(k,l)>(i,j),则可移除(k,l)。

在例子1中(4,6)和(5,7)都是(2,5)的后继匹配点，因为他们在同一层，而且(4,6)>(5,7),可以移除(5,7)。在例子1中的匹配点(1,2)，它的后继点为(4,6),(3,3),(2,5),(5,2),他们可通过TX的第一列和TY的第二列获得。因为(3,3)<(4,6),(4,6)可根据剪裁操作1被移除。在它的下一层，(3,3)，(2,5)和(5,2)的后继点是(4,6)，(5,4)，(5,7)和(6,6)。因为(6,6)是(5,4)的后继点，(5,7)是（4,6）的后继点，因此，可移除(6,6)和(5,7)。

剪裁操作2：如果在同一层，有两个匹配点分别为,满足，不影响算法的正确性，可移除。

基本原理：可以被移除的原因如下。的后继点，字符序列和的最长公共子序列的长度是r。的后继点。因为i1<i2，如果一个LCS包括一个匹配点（i2,j）后的子串，它的子串能够被添加在(i1,j)后面。因为(i1,j)和(i2,j)在同一层，必然存在一个LCS包括(i1,j)。换句话说，对于很多包含了(i1,j)的LCS，必然有一个包含了(i1,j)。(i2,j)不影响算法的正确性，可剪除。通过扩展裁剪操作2，能够得到一下的裁剪操作。

裁剪操作3：如果有多个匹配点，可以裁剪。

3。1。3 FAST_LCS的框架和复杂度分析

基于通过后继表产生匹配点的后继点操作和剪裁操作，提出了以一种名为“FAST_LCS”快速的并发算法。该算法包含两个阶段：搜索所有的匹配字符和回溯得到LCS。第一个阶段

从初始匹配字符序列出发，继而通过后继表查询后继匹配点。在这个阶段中，可以通过裁剪技术丢弃那些无法得到最佳解决方案的匹配点，从而能减少搜索空间和加快搜索效率。

FAST_LCS算法的框架如下所示。步骤1,2,3组成了第一个阶段，步骤4组成了第2个阶段。文献综述

步骤1。建立TX表和TY表

步骤2。找到所有初始匹配点：，并将这些匹配点以的结构存于“匹配点”表中。

步骤3。重复一下的操作直到“匹配点”表中没有active状态的记录。

步骤3。1 对于所有active状态的匹配点并发操作。

步骤3。1。2 对于直接后继匹配点中的每个元素都创建一个新的记录，并插入匹配表中。

步骤3。1。3 改变的状态为inactive。

步骤3。2 对这一层所有的后继点使用裁剪操作，移除匹配表中无用的匹配点。适合大数据分析MLCS算法的设计与实现(6):http://www.youerw.com/jisuanji/lunwen_123957.html