基于知识相依性的复合材料决策知识获取算法

    摘要:为了能够准确有效地实现复合材料成型工艺决策知识的自动获取,通过对树脂基复合材料成型工艺决策数据的分析,建立了基于粗糙集理论的复合材料成型工艺决策知识挖掘模型,提出了一种基于知识相依性的复合材料成型工艺决策规则挖掘方法。该方法利用知识相依性进行工艺数据预处理和约简的同时,建立成型工艺决策知识树,大大提高了决策树构造的效率。后通过实例分析验证了该方法的可行性,实现了复合材料成型工艺决策知识的自动获取。
    决策知识获取是建立和管理复合材料成型工艺知识库的“瓶颈”问题。随着CAPP技术在复合材料成型领域的广泛应用,结构化、数字化的工艺数据积累很快,这些积累起来的大量工艺数据中就包含了丰富的工艺知识,能够有效准确地获取知识是成功构建基于知识的计算机辅助复合材料成型工艺系统的关键技术之一。工艺决策知识是在实践中积累的认识和经验的总和,目前复合材料成型工艺决策知识获取的主要方式是由知识工程师在复合材料工艺领域专家的指导下,通过对有关文献、资料、手册以及工艺规范、工艺标准、技术文档的分析,结合专家的经验,获取工艺设计相关的工艺知识,这需要花费大量的时间并需要与复合材料领域专家密切配合。
    在复合材料领域知识研究方面,主要有美国设计工程学院Stevens技术学院研究了复合材料注射工艺方面的知识,建立了复合材料构件设计知识库,利用模糊理论对复合材料构件模具材料进行选择,采用模糊推理的方法确定复合材料成型工艺。这些研究多集中在设计知识和成型工艺知识表达和管理应用上,而对复合材料成型工艺决策知识的自动获取方面很少有文献报道。
    本文在已开发的CAACMPP系统基础上研究了知识相依性在复合材料成型工艺决策知识自动获取中的应用。通过对复合材料成型过程的工艺数据的分析与处理,形成工艺知识的描述,利用粗糙集理论中知识相依性对工艺数据进行约简,同时建立决策树,产生新的工艺知识,促进企业工艺的标准化与规范化,从而解决企业的复合材料成型工艺决策知识获取的“瓶颈”问题。
1  成型工艺决策知识挖掘模型
    在复合材料成型工艺设计中,决策类知识在成型工艺知识中所占比例很大。如材料选择规则、成型工艺方法选择规则、层合板铺层规则、树脂注射参数选择规则、固化参数规则等。图1给出了基于粗糙集理论的复合材料成型工艺决策知识获取模型。其获取的步骤包括:[-page-] 
   
    步骤1:成型工艺数据获取。从已有的复合材料数据库、复合材料资源库、遗产数据库及专家等进行工艺数据收集,形成工艺数据仓库。
    步骤2:数据预处理。为降低粗糙集决策类知识获取的难度和复杂性,提高该方法发现知识的质量和效果,必须先进行数据的预处理,该步骤为数据挖掘提供前期准备工作。模型中的数据预处理指对待研究复合材料成型工艺数据进行必要的继承、清洗、转换、规约等一系列的处理工作,使数据转化为决策表表达的形式,进而帮助提高决策规则获取的准确性和有效性。
    步骤3:基于知识相依性的决策树生成。
    步骤4:规则生成。
    步骤5:规则的使用。[-page-] 
    其中,基于知识相依性的决策树生成是该模型建立的核心,下面将详细讨论。
2  基于知识相依性的决策树算法
    决策树(decision tree)是从复合材料成型工艺数据库中挖掘成型工艺决策规则的一种有效方法。构造复合材料成型工艺决策树的过程就是根据训练实例集来预测如何根据属性对整个实例空间进行划分,但在学习的开始时,只有一棵空的决策树,并不知道如何根据属性将复合材料工艺决策数据样本进行分类,利用粗糙集中知识相依性可以度量条件属性对于分类的重要性。
2.1   知识相依性理论
    设信息系统S={U,A},U为待挖掘复合材料决策知识的样本,A=CUD为属性集合,其中C为条件属性子集,D为决策属性子集。
    若R为U上的一个等价关系,定义U/R表示R的所有等价类构成的集合,[x]R表示包含元素x∈U的R等价类。
    若PA,且P≠φ,则∩P是一个等价关系,称为P上的不可区分关系,记为ind(P),且有:
   
    这样,U/ind(P)表示与等价关系族P相关的知识。
    在信息系统S={U,A}中,定义两个子集:
    [-page-] 
    其中,称POSR(X)= RX称为X的R正域。
    对信息系统S={U,A},P,Q()A,有如下定义:
    定义1:知识Q依赖于知识P,当且仅当ind(P)ind(Q)。
    定义2;知识P与知识Q等价,当且仅当ind(P)ind(Q)且ind(P)ind(P)
    定义3:知识P与知识Q独立,当且仅当ind(P)ind(Q)且ind(Q)ind(P)均不成立。
    定理1:下列条件是等价的:
    (1)ind(P)ind(Q)
    (2)ind(PUQ)=ind(P)
    (3)POSp(Q)=U
    定理1表明,在样本训练集中,如果属性Q依赖于属性P,则在信息系统中,属性Q是多余的。那么,在构造决策树时,属性Q应该被约简掉。有时候,知识的相依性可能是部分的,这表示知识Q仅有部分是由知识P导出的,部分的相依性可由知识的正域来定义。
    定义4:信息系统S={U,A},P,Q()A,有:
    k=Yp(Q)=|Posp(Q)|/|U|     (4)
    称为知识Q为k(O≤k≤1)度依赖于知识P的。
    知识的相依性在决策树构造中可转化为属性间的相关性,而依据条件属性和决策属性的依赖度可同时进行决策表的属性约简和决策树构建。属性约简从本质上讲是对决策树进行预修剪,限制了决策树的总节点数。
    利用粗糙集进行属性约简,就是找到条件属性C的小子集R,使得Yc(D)=YR(D),其中R称为C的D一个约简,记为REDD(C)。一个信息系统的约简一般不止一个,所有约简的交集称为条属性的C的D核。由此可以看出,属性的核是条件属性集中对分类为重要的那些属性。那么,找到属性的核对属性的约简十分重要,简单的想法当然是求取所有可能的属性约简,再求交集,但这是一个指数时间复杂度问题。实际上,因为每一个约简均包含属性的核,所以完全可以直接去寻找一个佳约简或较好的约简,本文利用贪婪法(greedyalgorithm)的思想,对复合材料成型工艺决策数据表进行属性约简,同时构建复合材料成型工艺知识决策树。
2.2  基于知识相依性的复合材料成型工艺决策知识获取算法
    根据上述理论,算法描述如下:[-page-] 
    输入:工艺决策数据
    输出:工艺决策树
    步骤1:收集复合材料成型工艺决策数据,构建成型工艺决策数据表;
    步骤2:确定成型工艺决策数据表中的条件属性集C和决策属性集D;
    步骤3:令工艺决策树T的初始状态为空,同时令约简集(C)=Ф;
    步骤4:计算条件属性集C中属性Ci与决策属性D的相关性Yci(D),取使Yci(D)大的属性ci1(C)=(C)U{ci1},并使属性ci1作为决策树的根节点;
    步骤5:IFCi1,某一属性中的所有决策属性都相同,则产生一个叶节点,Else递归在每个属性寻找使相关性Yci2 (D)大的属性Ci2(C)U{Ci2},并使属性Ci2,作为决策树的根节点重复建立步骤5,直到某个(C),使得(D)=Yc(D)为止。
3  实例验证
    表1所示为树脂基复合材料成型工艺方法选择的决策数据。其中制件形状、制件厚度、树脂、拉伸强度为条件属性,成型方法为决策属性。
    [-page-] 
    根据上述给出的算法可知:
    U={1,2,3,4,5,6,7}
    U/D={{1,2},{3,7},{4,5,6}}
    U/制件形状={{1},{2,6},{3},{4,5,7}}
    U/制件厚度={{1,3,5,7},{2,4},{6}}
    U/树脂={{1,2,4,5,6,7},{3}}
    U/拉伸强度={{1,3,5},{2,4,6,7}}
    计算每个属性分类的相关性为:
    Y制件形状=2/7,Y制件厚度=1/7,Y树脂= 1/7,Y拉伸强度=0。
    所以选择制件形状作为决策树的根节点,在制件形状的每个分支上使用向样的方法,后建立的成型方法决策树如图2所示。从生成的决策树可以看出属性树脂被约简掉。
    [-page-] 
    决策树确定后即可以采用带置信度的IF-THEN形式,从决策树的根到树叶的每条路径创建复合材料成型方法决策分类规则。其中,给定路径上的每个属性值形成规则前提的一个合取项,叶节点包含成型方法。下面给出由上述决策树确定的部分决策规则。
    RULES:<树脂基复合材料成型方法决策规则>
    IF等于(制件形状,工字形,0.6)AND
      等于(制件厚度,3,0.3)AND
      等于(拉伸强度,100,0.1)
    THEN选用(成型方法,RTM成型,1)END
    以上结果表明,①利用知识相依性可以进行复合材料成型工艺决策知识的自动获取;②由图2生成的决策树可知,利用知识相依性在建立复合材料成型工艺决策树的同时可以对属性进行约简,实例中树脂属性被约简掉,不用在建立决策树后二次对决策树进行修剪,提高决策规则的获取效率。
4  结 语
    针对复合材料成型工艺属性复杂多样和决策知识多是人机交互获取的特点,本文在分析影响复合材料成型工艺决策数据的基础上,利用知识相依性和决策树算法对成型工艺决策知识进行自动获取,规则提取算法简单。实例表明,在利用知识相依性建立决策树同时可以对决策树的属性进行约简,提高复合材料成型工艺决策知识获取的效率。