引 言
近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色。在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] 。因此,深入研究多模态过程的特点对实际生产有着重要作用。通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等。
在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] 。由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] 。常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷。如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] 。有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证。
快速搜索发现密度峰[23 ] (CFSFDP)是基于局部密度的一种聚类技术,它根据聚类中心点密度较大且与其他中心点距离较远的特点,引入高斯核密度估计函数(KDE)计算数据点的密度,再通过欧氏距离计算数据点间的距离,从而完成数据聚类。但是该方法的聚类效果取决于截距参数,为避免这一点,有学者对其进行改进并提出了无须事先确定截距参数的热扩散核密度确定密度峰的技术[24 ] (CFSFDP-HD)。本文提出将CFSFDP-HD技术与GMM模型结合的方法,首先通过CFSFDP-HD方法对多模态过程数据进行聚类,然后将聚类结果作为GMM模型的初值,从而对多模态过程的工况进行较准确的估计。
1 工况识别方法
1.1 高斯混合模型
过程数据 X n×d 是d 维的n 个样本数据,且X = x 1 , x 2 , ⋯ , x n ,其概率密度函数可表示为:
p x | θ = ∑ i = 1 k τ i g x | θ i (1)
其中,k 为高斯模型的数量,τi 和θ i = μ i , Σ i 分别为第i 个高斯模型的权重和参数(平均值和协方差)。
g x | θ i = 1 2 π d / 2 Σ i 1 / 2 e x p - 1 2 x - μ i Τ Σ i - 1 x - μ i i = 1,2 , ⋯ , k (2)
模型的参数θi 常用EM法[25 ] 求解,通过不断地更新后验概率和模型参数,直到模型参数几乎不变。针对数据X = x 1 , x 2 , ⋯ , x n 和模型初始参数θ 0 = τ 1 0 , θ 1 0 , τ 2 0 , θ 2 0 , … , τ k 0 , θ k 0 ,其迭代计算步骤如下。
P ( s ) C k | x j = τ k s g x j | μ k s , Σ k s ∑ i = 1 k τ i s g x j | μ i s , Σ i s j = 1,2 , ⋯ , n (3)
P s C k | x j 表示第j 个样本属于第k 个高斯模型的后验概率,s 表示第s 次迭代。
μ k s + 1 = ∑ j = 1 n P s C k | x j x j ∑ j = 1 n P s C k | x j (4)
Σ k s + 1 = ∑ j = 1 n P s C k | x j x j - μ k s + 1 x j - μ k s + 1 Τ ∑ j = 1 n P s C k | x j (5)
τ k s + 1 = ∑ j = 1 n P s C k | x j n (6)
其中,μ k s + 1 、 Σ k s + 1 、 τ k s + 1 分别为第k 个高斯模型在第(s+ 1)次迭代的平均值、协方差矩阵和先验概率。
基于最短信息长度准则的F-J方法只需对式(6)进行如下修改,即可得到较为理想的聚类结果。
τ k s + 1 = m a x 0 , ∑ j = 1 n P s C k | x j - v 2 ∑ i = 1 k m a x 0 , ∑ j = 1 n P s C k | x j - v 2 (7)
其中,v = 1 2 d 2 + 3 2 d ,d 为变量的个数,通过迭代将任意两个相同的高斯模型进行合并,最终获得多个工况模型及其参数。
1.2 热扩散核密度确定密度峰技术
P d i , d j , t = 1 n ∑ j = 1 n 1 2 π t e - d i - d j 2 2 t (j =1,2,…,n )(8)
P d i , d j , t 为样本点i 到j 的转移概率,t 为核函数的带宽,di - dj 为样本j 到i 的距离。
ρ i = f ⌢ d ; t ≈ ∑ k = 0 n - 1 α k e - k 2 π 2 t / 2 c o s k π d (9)
式(9)为KDE的完全自适应形式,考虑了最佳带宽选择和边界校正。其中n 为一个较大的整数,本文取n 为样本数量,αk 为:
α k = 1 , k = 0 1 n ∑ i = 1 n c o s k π d i , k = 1,2 , ⋯ , n - 1 (10)
最佳带宽的选择使用了改进的Sheather–Jones(ISJ)方法[26 ] ,其计算步骤如下:
t = ξ γ l t (11)
ξ = 6 2 - 3 7 (12)
γ l t = γ 1 γ 2 ⋯ γ l t ⋯ (13)
γ l t = 1 + 0 . 5 l + 0.5 3 1 × 3 × ⋯ × 2 l - 1 n π / 2 f l + 1 2 (14)
f l + 1 2 = ∑ k = 1 l - 1 k π 2 l + 2 α k 2 e x p - k π 2 t (15)
其中,当l ≥ 5时,l 的取值对式(11)的计算结果影响很小,故本文中取l = 5。
(1)设置一个较小的容差ε = 10-9 ,令yq =ε ,q = 0;
(3)如果y q + 1 - y q < ε ,t = yq+ 1 停止,否则yq = yq +1 ,q = q +1,返回步骤(2)。另外,令t = sqrt (t )/3.3,可对边界点进行修正。
δ = m i n d i j , i f ∃ j , ρ j > ρ i m a x d i j , o t h e r w i s e (16)
1.3 提出方法的计算步骤
本文提出的方法对近似服从高斯分布的未知多模态稳态工况进行识别时,首先利用CFSFDP-HD技术对多模态过程数据进行聚类,确定聚类中心点及其个数(即工况个数),然后将每一类数据的平均值和协方差作为GMM模型的初值,迭代求出不同工况的特征参数。其计算过程如下:
(2)由参数αk 和式(11)~式(15)得出最佳带宽t ;
(3)由式(9)和式(16)的结果画出决策图,并由此完成聚类;
(4)将每一类的特征参数作为GMM模型初值,求出最终工况参数。
通过以上步骤即可完成对历史工况的准确识别,下面通过第2节中的两个例子对该方法进行验证。
图1
图1
基于热扩散核密度的工况识别方法流程图
Fig.1
Flow chart of recognizing operating modes based on kernel density estimation of heat diffusion
2 方法验证与结果分析
2.1 仿真数据
根据文献[27 ] 中的多模态仿真模型生成过程数据,然后分别用本文提出的方法、K-均值法和GMM(F-J)的方法进行工况识别,数据生成模型如式(17)所示:
x 1 = 0.5768 s 1 + 0.3766 s 2 + e 1 x 2 = 0.7382 s 1 2 + 0.0566 s 2 + e 2 x 3 = 0.8291 s 1 + 0.4009 s 2 2 + e 3 (17)
x ˜ i = x i , j - x i , m i n x i , m a x - x i , m i n (18)
式(18)为数据标准化的方法,xi , j 表示第i 个变量的第j 个数据,x ˜ i 表示标准化处理后的第i 个变量的向量数据,xi ,min 表示第i 个变量的最小值,xi ,max 表示第i 个变量的最大值。
其中,e 1 ~e 3 是服从[0,0.01]的高斯白噪声分布,通过调整s 1 和s 2 的参数,生成含3个变量(x 1 、x 2 和x 3 )的多模态过程数据。其中模态1是变量s 1 和s 2 分别服从高斯分布为[20,0.8]、[1,1.3]得到的300个数据;模态2是变量s 1 和s 2 分别服从高斯分布[5,0.6]、[20,0.7]得到的300个数据;模态3是变量s 1 和s 2 分别服从高斯分布[16,1.5]、[20,0.7]得到的300个数据;模态4是和模态2在相同参数(工况)下产生的300个数据,用于检验三种方法能否准确地获取实际的工况状态。
将生成数据用式(18)进行标准化处理,其分布情况如图2 所示,可以看出数据有四个阶段,其中300~600和900~1200阶段的状态相同,然后分别对三种方法进行验证。使用本文方法画出关于密度和距离的决策图,见图3 ,图中有三个中心点,表明本文方法根据过程数据识别出三种工况,每个中心点表示一种工况的数据中心。然后根据数据点到中心点的距离将其分类,将每一类的结果作为GMM模型的初值,从而得出不同工况的特征参数。使用K-均值法进行工况识别时,由于聚类数量是未知的,所以将聚类数量分别设置为3、4和5,其中K = 5时的结果与实际相差较大,其结果未在表1 中列出。使用GMM(F-J)方法时,需要设置初始聚类数量(K )大于实际工况数量,本文分别设为4、5和6,GMM模型的初值设置为将过程数据平均分成K 份,每份数据的特征参数[19 ] ,先验概率设为1/K ,其中K = 6时的结果与K = 5时的结果几乎相同,其结果未在表1 中列出。三种方法的工况识别结果见表1 。可以看出本文方法获取的多模态过程的工况个数及其特征参数(变量的平均值和工况的先验概率)与实际值一致。当K-均值法的聚类数量与实际工况数量一致时(K =3),得到的工况特征参数与实际值的相对偏差较小,当聚类数量大于实际工况数量时(K =4),得到的工况特征参数与实际值的相对偏差较大,由此看出该方法的工况识别效果取决于聚类数量的准确选择。GMM(F-J)方法给定不同的初始聚类数量(K =4、5)时均将工况识别为4种,未能准确识别出实际工况的个数,但得到的工况特征参数与实际值的偏差在0.01~-20.39,其结果仍具有一定的参考价值。
图2
图2
仿真多模态过程数据标准化
Fig.2
Normalization of multi-modal process simulation data
图3
图3
仿真多模态过程数据的聚类中心决策图
Fig.3
Clustering center decision diagram of process data for simulating multiple operating modes
2.2 TE过程
Tennessee Eastman(TE)工业过程是由美国Eastman化学品公司开发的复杂工业过程的仿真平台,它包括六种工作模态,每种模态具有不同的产品比例(G/H),该流程包含12个操作变量、22个连续过程测量变量和19个组成测量变量[28 -30 ] 。本文选取TE过程中模态1~模态4作为多模态过程,选取41个测量变量作为工况识别的变量,其中每种模态取300个数据为1组,第5组和第3组为相同模态下的数据,具体模态选取情况见表2 。
将过程数据用式(18)进行标准化处理,选取反应器温度、A和C的混合进料量、产品分离器压力和回收流量4个变量画出分布图,见图4 ,可以看出5个阶段中600~900和1200~1500的状态相同,然后分别用三种方法进行验证。本文方法得到的决策图见图5 ,图中有4个中心点,表明本文方法识别出4种工况,然后使用GMM法获取每种工况的特征参数。将K-均值法的聚类数量(K )分别设为4、5和6,其中K = 5和6的结果与实际相差较大,其结果未在表4 中列出。将GMM(F-J)方法的初始聚类数量设为4、5和6时,该方法均无法获取工况参数。三种方法工况识别结果的典型数据见表3 、表4 。
图4
图4
4个TE过程变量的标准化
Fig.4
Normalization of 4 TE process variables
图5
图5
TE多模态过程数据的聚类中心决策图
Fig.5
Clustering center decision diagram of TE multi-modal process
从表3 可以看出本文方法得到的历史工况的个数和先验概率与实际值一致;K-均值法的结果则取决于设定的聚类数量K ,当K 与实际一致(K = 4)时也可以较准确获取历史工况的个数及先验概率,但是当K = 5和K = 6时,其结果与实际相差较大。GMM(F-J)法则无法获取到工况的参数。
三种方法过程变量的识别结果见表4 ,可以看出本文提出的方法识别结果的平均相对偏差在 -0.0043~-1.3681,最大相对偏差为-4.748,最小相对偏差为-0.0014;K-均值法识别结果的平均相对偏差在-0.0043~-1.4371,最大相对偏差为-4.9847,最小相对偏差为-0.0014。结合表3 、表4 可以看出GMM(F-J)法不适合本案例的工况识别,本文方法和给定准确聚类数量的K-均值法都可以较准确地识别出工况特征,但K-均值法的准确性依赖于聚类数量的选择,而本文方法则没有这种约束。
3 结 论
针对目前工况识别方法的不足,提出将人工智能领域的CFSFDP-HD技术与GMM模型结合用于对多模态过程的历史工况进行识别的方法,避免了K-均值法需要预先提供准确聚类数量的缺点,并利用案例对本文所提方法进行了验证,结果表明:GMM(F-J)法不能保证准确地识别工况,K-均值法只有在给定正确工况数量的前提下才能获得较好的结果,而本文方法则可方便、有效地对历史多工况进行准确识别,具有更强的实用性。
符 号 说 明
d
过程变量的个数
g (x | θi )
第i 个高斯模型所对应的高斯密度函数
K
聚类的数量,也是高斯模型的数量
k
第k 个高斯模型,也表示第k 个数据
P ( s ) (Ck |xj )
第j 个样本点第s 次迭代属于第k 个高斯模型的概率
P (di ,dj ,t )
样本点i 到j 的转移概率
p (x|θ )
概率密度函数
t
高斯核密度估计函数的带宽
X n × d
样本数据矩阵,n 为样本数,d 为变量数
xi , j
变量i 的第j 个样本数据
xi ,max
变量i 的最大样本数据
xi ,min
变量i 的最小样本数据
δ
样本点到附近高密度点的距离
θi
第i 个高斯模型的参数
μi
第i 个高斯分量的变量平均值
ρi
样本点的密度
Σi
第i 个高斯分量的方差
τi
第i 个高斯分量的权重
参考文献
View Option
[1]
谭帅 . 多模态过程统计建模及在线监测方法研究
[D]. 沈阳 : 东北大学 , 2012 .
[本文引用: 1]
Tan S . Statistical modeling and online monitoring for multiple mode processes
[D]. Shenyang : Northeastern University , 2012 .
[本文引用: 1]
[2]
陈刚 , 路殿坤 . 黄金冶金原理与工艺[M]. 沈阳 : 东北大学出版社 , 1999 .
[本文引用: 1]
Chen G , Lu D K . Gold Metallurgy Principle and Technology [M]. Shenyang : Northeast University Press , 1999 .
[本文引用: 1]
[3]
Jia R X , Wang J , Zhou J L . Fault diagnosis of industrial process based on the optimal parametric t-distributed stochastic neighbor embedding
[J]. Science China Information Sciences, 2020 , 64 (5 ): 1 -3 .
[本文引用: 1]
[4]
Le Q H , Verheijen P J T , Mampaey K E , et al . Non-linear data reconciliation for a partial nitritation (SHARON) reactor
[J]. IFAC-PapersOnLine, 2016 , 49 (7 ): 1139 -1144 .
[本文引用: 1]
[5]
李永明 , 史旭东 , 熊伟丽 . 基于工况识别的污水处理过程多目标优化控制
[J]. 化工学报, 2019 , 70 (11 ): 4325 -4336 .
[本文引用: 1]
Li Y M , Shi X D , Xiong W L . Condition recognition based intelligent multi-objective optimal control for wastewater treatment
[J]. CIESC Journal, 2019 , 70 (11 ): 4325 -4336 .
[本文引用: 1]
[6]
Yu J , Qin S J . Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models
[J]. AIChE Journal, 2008 , 54 (7 ): 1811 -1829 .
[本文引用: 1]
[7]
Zhao S J , Zhang J , Xu Y M . Performance monitoring of processes with multiple operating modes through multiple PLS models
[J]. Journal of Process Control, 2006 , 16 (7 ): 763 -772 .
[本文引用: 1]
[8]
Cao Y , Jan N M , Huang B , et al . Multimodal process monitoring based on variational Bayesian PCA and Kullback-Leibler divergence between mixture models
[J]. Chemometrics and Intelligent Laboratory Systems, 2021 , 210 : 104230 .
[9]
Zhang Z , Deng X G . Anomaly detection using improved deep SVDD model with data structure preservation
[J]. Pattern Recognition Letters, 2021 , 148 : 1 -6 .
[10]
Lee J M , Yoo C , Lee I B . Statistical process monitoring with independent component analysis
[J]. Journal of Process Control, 2004 , 14 (5 ): 467 -485 .
[本文引用: 1]
[11]
Tan S , Wang F L , Peng J , et al . Multimode process monitoring based on mode identification
[J]. Industrial & Engineering Chemistry Research, 2012 , 51 (1 ): 374 -388 .
[本文引用: 1]
[12]
Xie X , Shi H B . Multimode process monitoring based on fuzzy C-means in locality preserving projection subspace
[J]. Chinese Journal of Chemical Engineering, 2012 , 20 (6 ): 1174 -1179 .
[本文引用: 1]
[13]
郭金玉 , 袁堂明 , 李元 . 一种不等长的多模态间歇过程故障检测方法
[J]. 化工学报, 2016 , 67 (7 ): 2916 -2924 .
[本文引用: 1]
Guo J Y , Yuan T M , Li Y . Fault detection method for uneven-length multimode batch processes
[J]. CIESC Journal, 2016 , 67 (7 ): 2916 -2924 .
[本文引用: 1]
[14]
Zhu J L , Ge Z Q , Song Z H . Distributed Gaussian mixture model for monitoring plant-wide processes with multiple operating modes
[J]. IFAC Journal of Systems and Control, 2018 , 6 : 1 -15 .
[本文引用: 1]
[15]
Choi S W , Park J H , Lee I B . Process monitoring using a Gaussian mixture model via principal component analysis and discriminant analysis
[J]. Computers & Chemical Engineering, 2004 , 28 (8 ): 1377 -1387 .
[本文引用: 1]
[16]
Dong J , Zhang C , Peng K X . A new multimode process monitoring method based on a hierarchical Dirichlet process—Hidden semi-Markov model with application to the hot steel strip mill process
[J]. Control Engineering Practice, 2021 , 110 : 104767 .
[本文引用: 1]
[17]
Zhang J X , Zhou D H , Chen M Y . Monitoring multimode processes: a modified PCA algorithm with continual learning ability
[J]. Journal of Process Control, 2021 , 103 : 76 -86 .
[本文引用: 1]
[18]
Khediri I B , Weihs C , Limam M . Kernel k-means clustering based local support vector domain description fault detection of multimodal processes
[J]. Expert Systems with Applications, 2012 , 39 (2 ): 2166 -2171 .
[本文引用: 1]
[19]
Huang T , Peng H , Zhang K . Model selection for Gaussian mixture models
[J]. Statistica Sinica, 2017 , 27 (1 ): 147 -169 .
[本文引用: 2]
[20]
Karlis D , Xekalaki E . Choosing initial values for the EM algorithm for finite mixtures
[J]. Computational Statistics & Data Analysis, 2003 , 41 (3/4 ): 577 -590 .
[本文引用: 1]
[21]
Figueiredo M A T , Jain A K . Unsupervised learning of finite mixture models
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002 , 24 (3 ): 381 -396 .
[本文引用: 1]
[22]
Paalanen P , Kamarainen J K , Ilonen J , et al . Feature representation and discrimination based on Gaussian mixture model probability densities—practices and algorithms
[J]. Pattern Recognition, 2006 , 39 (7 ): 1346 -1358 .
[本文引用: 1]
[23]
Rodriguez A , Laio A . Clustering by fast search and find of density peaks
[J]. Science, 2014 , 344 (6191 ): 1492 -1496 .
[本文引用: 1]
[24]
Mehmood R , Zhang G Z , Bie R F , et al . Clustering by fast search and find of density peaks via heat diffusion
[J]. Neurocomputing, 2016 , 208 : 210 -217 .
[本文引用: 1]
[25]
Xiao J , Xu Q Q , Wu C L , et al . Performance evaluation of missing-value imputation clustering based on a multivariate Gaussian mixture model
[J]. PLoS One, 2016 , 11 (8 ): e0161112 .
[本文引用: 1]
[26]
Ma S , Sun S G , Wang B J , et al . Estimating load spectra probability distributions of train bogie frames by the diffusion-based kernel density method
[J]. International Journal of Fatigue, 2020 , 132 : 105352 .
[本文引用: 1]
[27]
Ge Z Q , Song Z H . Multimode process monitoring based on Bayesian method
[J]. Journal of Chemometrics, 2009 : 23 (12 ):636 -650 .
[本文引用: 1]
[28]
解翔 , 侍洪波 . 多模态化工过程的全局监控策略
[J]. 化工学报, 2012 , 63 (7 ): 2156 -2162 .
[本文引用: 1]
Xie X , Shi H B . Global monitoring strategy for multimode chemical processes
[J]. CIESC Journal, 2012 , 63 (7 ): 2156 -2162 .
[本文引用: 1]
[29]
Downs J J , Vogel E F . A plant-wide industrial process control problem
[J]. Computers & Chemical Engineering, 1993 , 17 (3 ): 245 -255 .
[30]
Ricker N L . Optimal steady-state operation of the Tennessee Eastman challenge process
[J]. Computers & Chemical Engineering, 1995 , 19 (9 ): 949 -959 .
[本文引用: 1]
多模态过程统计建模及在线监测方法研究
1
2012
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
多模态过程统计建模及在线监测方法研究
1
2012
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
1
1999
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
1
1999
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
Fault diagnosis of industrial process based on the optimal parametric t-distributed stochastic neighbor embedding
1
2020
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
Non-linear data reconciliation for a partial nitritation (SHARON) reactor
1
2016
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
基于工况识别的污水处理过程多目标优化控制
1
2019
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
基于工况识别的污水处理过程多目标优化控制
1
2019
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models
1
2008
... 近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色.在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1 ] ,如发酵过程[2 ] 、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3 -4 ] .因此,深入研究多模态过程的特点对实际生产有着重要作用.通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5 -6 ] 等. ...
Performance monitoring of processes with multiple operating modes through multiple PLS models
1
2006
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Multimodal process monitoring based on variational Bayesian PCA and Kullback-Leibler divergence between mixture models
0
2021
Anomaly detection using improved deep SVDD model with data structure preservation
0
2021
Statistical process monitoring with independent component analysis
1
2004
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Multimode process monitoring based on mode identification
1
2012
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Multimode process monitoring based on fuzzy C-means in locality preserving projection subspace
1
2012
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
一种不等长的多模态间歇过程故障检测方法
1
2016
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
一种不等长的多模态间歇过程故障检测方法
1
2016
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Distributed Gaussian mixture model for monitoring plant-wide processes with multiple operating modes
1
2018
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Process monitoring using a Gaussian mixture model via principal component analysis and discriminant analysis
1
2004
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
A new multimode process monitoring method based on a hierarchical Dirichlet process—Hidden semi-Markov model with application to the hot steel strip mill process
1
2021
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Monitoring multimode processes: a modified PCA algorithm with continual learning ability
1
2021
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Kernel k-means clustering based local support vector domain description fault detection of multimodal processes
1
2012
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Model selection for Gaussian mixture models
2
2017
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
... 将生成数据用式(18) 进行标准化处理,其分布情况如图2 所示,可以看出数据有四个阶段,其中300~600和900~1200阶段的状态相同,然后分别对三种方法进行验证.使用本文方法画出关于密度和距离的决策图,见图3 ,图中有三个中心点,表明本文方法根据过程数据识别出三种工况,每个中心点表示一种工况的数据中心.然后根据数据点到中心点的距离将其分类,将每一类的结果作为GMM模型的初值,从而得出不同工况的特征参数.使用K-均值法进行工况识别时,由于聚类数量是未知的,所以将聚类数量分别设置为3、4和5,其中K = 5时的结果与实际相差较大,其结果未在表1 中列出.使用GMM(F-J)方法时,需要设置初始聚类数量(K )大于实际工况数量,本文分别设为4、5和6,GMM模型的初值设置为将过程数据平均分成K 份,每份数据的特征参数[19 ] ,先验概率设为1/K ,其中K = 6时的结果与K = 5时的结果几乎相同,其结果未在表1 中列出.三种方法的工况识别结果见表1 .可以看出本文方法获取的多模态过程的工况个数及其特征参数(变量的平均值和工况的先验概率)与实际值一致.当K-均值法的聚类数量与实际工况数量一致时(K =3),得到的工况特征参数与实际值的相对偏差较小,当聚类数量大于实际工况数量时(K =4),得到的工况特征参数与实际值的相对偏差较大,由此看出该方法的工况识别效果取决于聚类数量的准确选择.GMM(F-J)方法给定不同的初始聚类数量(K =4、5)时均将工况识别为4种,未能准确识别出实际工况的个数,但得到的工况特征参数与实际值的偏差在0.01~-20.39,其结果仍具有一定的参考价值. ...
Choosing initial values for the EM algorithm for finite mixtures
1
2003
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Unsupervised learning of finite mixture models
1
2002
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Feature representation and discrimination based on Gaussian mixture model probability densities—practices and algorithms
1
2006
... 在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7 -10 ] .由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11 ] .常用的聚类方法包括模糊C均值法[12 ] 、K-均值法[13 ] 、高斯混合模型(GMM)[14 -15 ] 和隐马尔可夫模型(HMM)[16 ] 等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷.如K-均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17 -18 ] .有学者对GMM模型进行深入研究,提出了给定模型参数初值[19 ] 和基于信息准则确定聚类数量[20 ] 的方法,其中F-J的方法较为著名[21 -22 ] ,它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证. ...
Clustering by fast search and find of density peaks
1
2014
... 快速搜索发现密度峰[23 ] (CFSFDP)是基于局部密度的一种聚类技术,它根据聚类中心点密度较大且与其他中心点距离较远的特点,引入高斯核密度估计函数(KDE)计算数据点的密度,再通过欧氏距离计算数据点间的距离,从而完成数据聚类.但是该方法的聚类效果取决于截距参数,为避免这一点,有学者对其进行改进并提出了无须事先确定截距参数的热扩散核密度确定密度峰的技术[24 ] (CFSFDP-HD).本文提出将CFSFDP-HD技术与GMM模型结合的方法,首先通过CFSFDP-HD方法对多模态过程数据进行聚类,然后将聚类结果作为GMM模型的初值,从而对多模态过程的工况进行较准确的估计. ...
Clustering by fast search and find of density peaks via heat diffusion
1
2016
... 快速搜索发现密度峰[23 ] (CFSFDP)是基于局部密度的一种聚类技术,它根据聚类中心点密度较大且与其他中心点距离较远的特点,引入高斯核密度估计函数(KDE)计算数据点的密度,再通过欧氏距离计算数据点间的距离,从而完成数据聚类.但是该方法的聚类效果取决于截距参数,为避免这一点,有学者对其进行改进并提出了无须事先确定截距参数的热扩散核密度确定密度峰的技术[24 ] (CFSFDP-HD).本文提出将CFSFDP-HD技术与GMM模型结合的方法,首先通过CFSFDP-HD方法对多模态过程数据进行聚类,然后将聚类结果作为GMM模型的初值,从而对多模态过程的工况进行较准确的估计. ...
Performance evaluation of missing-value imputation clustering based on a multivariate Gaussian mixture model
1
2016
... 模型的参数θi 常用EM法[25 ] 求解,通过不断地更新后验概率和模型参数,直到模型参数几乎不变.针对数据X = x 1 , x 2 , ⋯ , x n 和模型初始参数θ 0 = τ 1 0 , θ 1 0 , τ 2 0 , θ 2 0 , … , τ k 0 , θ k 0 ,其迭代计算步骤如下. ...
Estimating load spectra probability distributions of train bogie frames by the diffusion-based kernel density method
1
2020
... 最佳带宽的选择使用了改进的Sheather–Jones(ISJ)方法[26 ] ,其计算步骤如下: ...
Multimode process monitoring based on Bayesian method
1
2009
... 根据文献[27 ] 中的多模态仿真模型生成过程数据,然后分别用本文提出的方法、K-均值法和GMM(F-J)的方法进行工况识别,数据生成模型如式(17) 所示: ...
多模态化工过程的全局监控策略
1
2012
... Tennessee Eastman(TE)工业过程是由美国Eastman化学品公司开发的复杂工业过程的仿真平台,它包括六种工作模态,每种模态具有不同的产品比例(G/H),该流程包含12个操作变量、22个连续过程测量变量和19个组成测量变量[28 -30 ] .本文选取TE过程中模态1~模态4作为多模态过程,选取41个测量变量作为工况识别的变量,其中每种模态取300个数据为1组,第5组和第3组为相同模态下的数据,具体模态选取情况见表2 . ...
多模态化工过程的全局监控策略
1
2012
... Tennessee Eastman(TE)工业过程是由美国Eastman化学品公司开发的复杂工业过程的仿真平台,它包括六种工作模态,每种模态具有不同的产品比例(G/H),该流程包含12个操作变量、22个连续过程测量变量和19个组成测量变量[28 -30 ] .本文选取TE过程中模态1~模态4作为多模态过程,选取41个测量变量作为工况识别的变量,其中每种模态取300个数据为1组,第5组和第3组为相同模态下的数据,具体模态选取情况见表2 . ...
A plant-wide industrial process control problem
0
1993
Optimal steady-state operation of the Tennessee Eastman challenge process
1
1995
... Tennessee Eastman(TE)工业过程是由美国Eastman化学品公司开发的复杂工业过程的仿真平台,它包括六种工作模态,每种模态具有不同的产品比例(G/H),该流程包含12个操作变量、22个连续过程测量变量和19个组成测量变量[28 -30 ] .本文选取TE过程中模态1~模态4作为多模态过程,选取41个测量变量作为工况识别的变量,其中每种模态取300个数据为1组,第5组和第3组为相同模态下的数据,具体模态选取情况见表2 . ...