化工学报 ›› 2020, Vol. 71 ›› Issue (5): 2173-2181.DOI: 10.11949/0438-1157.20191499
收稿日期:
2019-12-12
修回日期:
2020-01-23
出版日期:
2020-05-05
发布日期:
2020-05-05
通讯作者:
王雅琳
作者简介:
李灵(1988—),女,博士研究生,基金资助:
Ling LI(),Yalin WANG(
),Bei SUN
Received:
2019-12-12
Revised:
2020-01-23
Online:
2020-05-05
Published:
2020-05-05
Contact:
Yalin WANG
摘要:
变量筛选是现代工业过程产品质量预测研究中的热点问题之一。过滤式变量选择方法因其计算速度快且不易造成过拟合得到了广泛应用,但其存在容易忽略变量相关性且不能准确反映工况信息的问题,在高维数据维度灾难问题日渐突出的当今不再适用。针对这一问题,提出一种分步约简的敏感变量选择方法。该方法在明确敏感变量和关键敏感变量的基础上,根据变量对工况的描述能力和辅助变量与主导变量的净相关性定义了敏感性指标,实现敏感变量的初选;接着,构建加权余弦马田系统以解决变量冗余性问题,实现敏感变量的精选。所提方法应用于加氢裂化产品质量预测,实际工业应用结果表明,该方法不仅可以提高模型的预测精度,而且可以有效地降低模型复杂性。
中图分类号:
李灵, 王雅琳, 孙备. 一种分步约简的炼油生产敏感变量选择方法[J]. 化工学报, 2020, 71(5): 2173-2181.
Ling LI, Yalin WANG, Bei SUN. Fractional step reduction method for sensitive variable selection of refining processes[J]. CIESC Journal, 2020, 71(5): 2173-2181.
序号 | 过程参数 | 偏相关系数 | 离散 程度 | 敏感性指数 |
---|---|---|---|---|
1 | 原料油总流量 | 0.5784 | 0.1211 | 0.0700 |
2 | 反应加热炉总入口温度 | 0.4035 | 0.0408 | 0.0165 |
… | … | … | … | … |
11 | 精制反应器三床层底部温度 | 0.4132 | 0.2690 | 0.1112 |
12 | 精制反应器塔底温度指示 | 0.2873 | 0.0107 | 0.0031 |
13 | 精制反应器压差 | 0.2312 | 0.0258 | 0.0060 |
… | … | … | … | … |
21 | 冷低压分离器冷低分油流量 | 0.4756 | 0.1239 | 0.0589 |
22 | 新氢至加裂流量 | 0.4829 | 1.5620 | 0.7543 |
23 | 脱硫化氢汽提塔塔顶回流量 | 0.0931 | 0.0834 | 0.0078 |
… | … | … | … | … |
30 | 主分馏塔中段抽出量 | 0.4561 | 0.0365 | 0.0166 |
31 | 主分馏塔中段返回温度 | 0.2578 | 0.0171 | 0.0044 |
… | … | … | … | … |
37 | 柴油汽提塔塔顶温度 | 0.3006 | 0.0311 | 0.0093 |
38 | 柴油汽提塔底部温度 | 0.1722 | 0.0205 | 0.0035 |
表1 加氢裂化流程机理筛选辅助变量敏感性指数
Table 1 Sensitivity index of mechanism selected variables of hydrocracking process
序号 | 过程参数 | 偏相关系数 | 离散 程度 | 敏感性指数 |
---|---|---|---|---|
1 | 原料油总流量 | 0.5784 | 0.1211 | 0.0700 |
2 | 反应加热炉总入口温度 | 0.4035 | 0.0408 | 0.0165 |
… | … | … | … | … |
11 | 精制反应器三床层底部温度 | 0.4132 | 0.2690 | 0.1112 |
12 | 精制反应器塔底温度指示 | 0.2873 | 0.0107 | 0.0031 |
13 | 精制反应器压差 | 0.2312 | 0.0258 | 0.0060 |
… | … | … | … | … |
21 | 冷低压分离器冷低分油流量 | 0.4756 | 0.1239 | 0.0589 |
22 | 新氢至加裂流量 | 0.4829 | 1.5620 | 0.7543 |
23 | 脱硫化氢汽提塔塔顶回流量 | 0.0931 | 0.0834 | 0.0078 |
… | … | … | … | … |
30 | 主分馏塔中段抽出量 | 0.4561 | 0.0365 | 0.0166 |
31 | 主分馏塔中段返回温度 | 0.2578 | 0.0171 | 0.0044 |
… | … | … | … | … |
37 | 柴油汽提塔塔顶温度 | 0.3006 | 0.0311 | 0.0093 |
38 | 柴油汽提塔底部温度 | 0.1722 | 0.0205 | 0.0035 |
样本序号 | 马氏距离 | 余弦相似度 | 余弦马氏距离 |
---|---|---|---|
1 | 1.2643 | 0.4000 | 1.1260 |
2 | 0.5608 | 0.3437 | 0.5261 |
3 | 0.8299 | 0.3559 | 0.7540 |
4 | 1.0096 | 0.4000 | 0.9121 |
… | … | … | … |
29 | 1.0354 | 0.3401 | 0.9241 |
30 | 1.3146 | 0.3460 | 1.1597 |
31 | 0.9665 | 0.4000 | 0.8759 |
32 | 1.2449 | 0.4000 | 1.1097 |
表2 加权余弦马氏基准空间
Table 2 Weighted cosine Mahalanobis space
样本序号 | 马氏距离 | 余弦相似度 | 余弦马氏距离 |
---|---|---|---|
1 | 1.2643 | 0.4000 | 1.1260 |
2 | 0.5608 | 0.3437 | 0.5261 |
3 | 0.8299 | 0.3559 | 0.7540 |
4 | 1.0096 | 0.4000 | 0.9121 |
… | … | … | … |
29 | 1.0354 | 0.3401 | 0.9241 |
30 | 1.3146 | 0.3460 | 1.1597 |
31 | 0.9665 | 0.4000 | 0.8759 |
32 | 1.2449 | 0.4000 | 1.1097 |
样本序号 | 马氏距离 | 余弦相似度 | 余弦马氏距离 |
---|---|---|---|
1 | 4.919 | 0.3437 | 4.1870 |
2 | 276.954 | 0.3437 | 232.6964 |
3 | 1.6571 | 5.3472 | 2.2475 |
4 | 227.402 | 0.3460 | 191.0370 |
5 | 49.435 | 0.4000 | 41.5894 |
6 | 572.315 | 0.4000 | 480.8086 |
7 | 562.881 | 0.4000 | 472.8840 |
8 | 167.429 | 0.3401 | 140.6948 |
9 | 14.732 | 0.3401 | 12.4293 |
10 | 335.268 | 0.4000 | 281.6891 |
11 | 134.409 | 0.3390 | 112.9578 |
12 | 551.747 | 0.4000 | 463.5315 |
表3 异常样本余弦马氏距离
Table 3 Cosine Mahalanobis distance of the abnormal samples
样本序号 | 马氏距离 | 余弦相似度 | 余弦马氏距离 |
---|---|---|---|
1 | 4.919 | 0.3437 | 4.1870 |
2 | 276.954 | 0.3437 | 232.6964 |
3 | 1.6571 | 5.3472 | 2.2475 |
4 | 227.402 | 0.3460 | 191.0370 |
5 | 49.435 | 0.4000 | 41.5894 |
6 | 572.315 | 0.4000 | 480.8086 |
7 | 562.881 | 0.4000 | 472.8840 |
8 | 167.429 | 0.3401 | 140.6948 |
9 | 14.732 | 0.3401 | 12.4293 |
10 | 335.268 | 0.4000 | 281.6891 |
11 | 134.409 | 0.3390 | 112.9578 |
12 | 551.747 | 0.4000 | 463.5315 |
变量 | 1 | 2 | … | 15 | 16 | S/N1 | S/N2 | S/N差 |
---|---|---|---|---|---|---|---|---|
x1(x1) | 1 | 1 | … | 2 | 2 | 1.269 | 0.131 | 1.14 |
x2(x2) | 1 | 1 | … | 1 | 1 | 1.058 | -2.169 | 3.23 |
… | … | … | … | … | … | … | … | … |
x20(x22) | 2 | 1 | … | 2 | 1 | 0.886 | 0.122 | 0.76 |
x21(x24) | 2 | 1 | … | 1 | 1 | -0.296 | 0.154 | -0.45 |
… | … | … | … | … | … | … | … | … |
x28(x32) | 2 | 2 | … | 1 | 2 | -0.356 | 0.487 | -0.84 |
… | … | … | … | … | … | … | … | … |
x31(x35) | 2 | 2 | … | 1 | 1 | 1.632 | 1.021 | 0.61 |
x32(x36) | 2 | 2 | … | 1 | 2 | -0.610 | -0.495 | -0.12 |
表4 二水平正交表和信噪比
Table 4 OAs and S/N ratios
变量 | 1 | 2 | … | 15 | 16 | S/N1 | S/N2 | S/N差 |
---|---|---|---|---|---|---|---|---|
x1(x1) | 1 | 1 | … | 2 | 2 | 1.269 | 0.131 | 1.14 |
x2(x2) | 1 | 1 | … | 1 | 1 | 1.058 | -2.169 | 3.23 |
… | … | … | … | … | … | … | … | … |
x20(x22) | 2 | 1 | … | 2 | 1 | 0.886 | 0.122 | 0.76 |
x21(x24) | 2 | 1 | … | 1 | 1 | -0.296 | 0.154 | -0.45 |
… | … | … | … | … | … | … | … | … |
x28(x32) | 2 | 2 | … | 1 | 2 | -0.356 | 0.487 | -0.84 |
… | … | … | … | … | … | … | … | … |
x31(x35) | 2 | 2 | … | 1 | 1 | 1.632 | 1.021 | 0.61 |
x32(x36) | 2 | 2 | … | 1 | 2 | -0.610 | -0.495 | -0.12 |
变量集合 | RMSE |
---|---|
机理筛选辅助变量集合 | 3.2870 |
敏感变量集合 | 3.1740 |
关键敏感变量集合 | 3.0474 |
表5 3种变量集合预测建模的均方根误差RMSE
Table 5 RMSE of LWPLS on three auxiliary variable sets
变量集合 | RMSE |
---|---|
机理筛选辅助变量集合 | 3.2870 |
敏感变量集合 | 3.1740 |
关键敏感变量集合 | 3.0474 |
变量集合 | RMSE |
---|---|
机理筛选辅助变量集合 | 3.3001 |
敏感变量集合 | 3.1922 |
关键敏感变量集合 | 3.0764 |
表6 3种变量集合十折交叉验证的均方根误差RMSE
Table 6 RMSE of 10-fold cross validation on three auxiliary variable sets
变量集合 | RMSE |
---|---|
机理筛选辅助变量集合 | 3.3001 |
敏感变量集合 | 3.1922 |
关键敏感变量集合 | 3.0764 |
变量集合 | RMSE | ||
---|---|---|---|
PLS | SVM | LWKPCR | |
机理筛选辅助变量集合 | 3.6553 | 3.9652 | 3.2358 |
敏感变量集合 | 3.5363 | 3.8422 | 3.1727 |
关键敏感变量集合 | 3.4955 | 3.7272 | 3.0377 |
表7 3种变量集合不同预测建模的均方根误差
Table 7 RMSE of three methods based on three auxiliary variable sets
变量集合 | RMSE | ||
---|---|---|---|
PLS | SVM | LWKPCR | |
机理筛选辅助变量集合 | 3.6553 | 3.9652 | 3.2358 |
敏感变量集合 | 3.5363 | 3.8422 | 3.1727 |
关键敏感变量集合 | 3.4955 | 3.7272 | 3.0377 |
变量选择方法 | RMSE |
---|---|
本文所提方法 | 3.0474 |
文献[ | 3.1036 |
基于互信息的方法 | 3.1955 |
表8 基于3种变量选择方法建立LWPLS预测模型的均方根误差
Table 8 RMSE of LWPLS on three variable selection methods
变量选择方法 | RMSE |
---|---|
本文所提方法 | 3.0474 |
文献[ | 3.1036 |
基于互信息的方法 | 3.1955 |
1 | Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. J. Mach. Learn. Res., 2003, 3: 1157-1182. |
2 | Lazar C, Taminau J, Meganck S, et al. A survey on filter techniques for feature selection in gene expression microarray analysis[J]. IEEE ACM. T. Comput. Bi., 2012, 9(4): 1106-1119. |
3 | Girish C, Ferat S. A survey on feature selection methods[J]. Comput. Electr. Eng., 2014, 40: 16-28. |
4 | Ron K, George H J. Wappers for feature subset selection[J]. Artif. Intell., 1997, 97: 273-324. |
5 | Liu C, Wang W Y, Zhao Q, et al. A new feature selection method based on a validity index of feature subset[J]. Pattern Recogn. Lett., 2017, 92: 1-8. |
6 | Blum A L, Langley P. Selection of relevant features and examples in machine learning[J]. Artif. Intell., 1997, 97: 245-270. |
7 | Chen Q, Zhang M J, Xue B. Feature selection to improve generalization of genetic programming for high-dimensional symbolic regression[J]. IEEE T. Evolut. Comput., 2017, 21(5): 792-806. |
8 | Battiti R. Using mutual information for selecting features in supervised neural net learning[J]. IEEE T. Neural Networ., 1994, 5(4): 537-550. |
9 | 卢新国, 林亚平, 陈志平. 一种改进的互信息特征选取预处理算法[J]. 湖南大学学报(自然科学版), 2005, 32(1): 104-107. |
Lu X G, Lin Y P, Chen Z P. An improved feature selection preprocessing algorithm based on mutual information[J]. Journal of Hunan University (Natural Sciences), 2005, 32(1): 104-107. | |
10 | 童楚东, 史旭华. 基于互信息的PCA方法及其在过程监测中的应用[J]. 化工学报, 2015, 66(10): 4101-4106. |
Tong C D, Shi X H. Mutual information based PCA algorithm with application in process monitoring[J]. CIESC Journal, 2015, 66(10): 4101-4106. | |
11 | 光俊叶, 邵伟, 孙亮, 等. 基于融合欧式距离与Kendall Tau距离度量的谱聚类算法[J]. 控制理论与应用, 2017, 34(6): 783-789. |
Guang J Y, Shao W, Sun L, et al. Spectral clustering with mixed Euclidean and Kendall Tau metrics[J]. Control Theory & Applications, 2017, 34(6): 783-789. | |
12 | Vrieze S I. Model selection and psychological theory: a discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC)[J]. Psychological Methods, 2012, 17(2): 228-243. |
13 | 卢春红, 熊伟丽, 顾晓峰. 基于贝叶斯推理的PKPCAM的非线性多模态过程故障监测与诊断方法[J]. 化工学报, 2014, 65(12): 4866-4874. |
Lu C H, Xiong W L, Gu X F. Fault detection and diagnosis for nonlinear and multimode processes using Bayesian inference based PKPCAM approach[J]. CIESC Journal, 2014, 65(12): 4866-4874. | |
14 | Liu J Y, Li R Z, Wu R L. Feature selection for varying coefficient models with ultrahigh-dimensional covariates[J]. J. Am. Stat. Assoc., 2014, 109(505): 266-274. |
15 | Sun X, Liu Y H, Xu M T, et al. Feature selection using dynamic weights for classification[J]. Knowl-based Syst., 2013, 37: 541-549. |
16 | Jiang F, Sui Y F, Zhou L. A relative decision entropy-based feature selection approach[J]. Pattern Recogn., 2015, 48: 2151-2163. |
17 | Dong Y W, Yang S Q, Xu C Y, et al. Determination of soil parameters in apple-growing regions by near- and mid-infrared spectroscopy[J]. Pedosphere, 2011, 21(5): 591-602. |
18 | Vohland M, Besold J, Hill J, et al. Comparing different multivariate calibration methods for the determination of soil organic carbon pools with visible to near infrared spectroscopy[J]. Geoderma, 2011, 166(1): 198-205. |
19 | 吴佳, 谢永芳, 阳春华, 等. 一种无监督约简的浮选泡沫图像特征选择方法及应用[J]. 信息与控制, 2014, 43(3): 314-317. |
Wu J, Xie Y F, Yang C H, et al. An unsupervised reduction method for the selection of flotation froth image characters and its application[J]. Information and Control, 2014, 43(3): 314-317. | |
20 | Tham M T, Montague G A, Julian M A, et al. Soft-sensors for process estimation and inferential control[J]. J. Process Contr., 1991, 1(1): 3-14. |
21 | 李秋美, 田学民, 尚林源. 基于偏相关性分析的MPC控制器模型失配检测[J]. 化工学报, 2016, 67(3): 852-857. |
Li Q M, Tian X M, Shang L Y. Detection of model-plant mismatch based on partial correlation analysis of MPC controllers[J]. CIESC Journal, 2016, 67(3): 852-857. | |
22 | 常志朋, 陈龙生, 崔立志. 基于马田系统的区间Choquet 模糊积分多属性决策方法[J]. 控制与决策, 2016, 31(1): 180-186. |
Chang Z P, Cheng L S, Cui L Z. Interval Choquet fuzzy integral multi-attribute decision making method based on Mahalanobis-Taguchi system[J]. Control and Decision, 2016, 31(1): 180-186. | |
23 | Wang H J, Huo N, Li J H, et al. A road quality detection method based on the Mahalanobis-Taguchi System[J]. IEEE Access, 2018, 6: 29078-29087. |
24 | 马贺贺, 胡益, 侍洪波. 基于马氏距离局部离群因子方法的复杂化工过程故障监测[J]. 化工学报, 2013, 64(5): 1674-1682. |
Ma H H, Hu Y, Shi H B. Fault detection of complex chemical processes using Mahalanobis distance based local outlier factor[J]. CIESC Journal, 2013, 64(5): 1674-1682. | |
25 | 刘晓凤, 栾小丽, 刘飞. 基于隐变量空间载荷余弦相似度的间歇过程递推优化[J]. 化工学报, 2018, 69(3): 1167-1172. |
Liu X F, Luan X L, Liu F. Recursive optimization of batch processes based on load cosine similarity in latent variable space[J]. CIESC Journal, 2018, 69(3): 1167-1172. | |
26 | 王雅琳, 夏海兵, 袁小峰, 等. 基于趋势相似度分析的多重时滞辨识及其在加氢裂化流程中的应用[J]. 化工学报, 2018, 69(3): 1149-1157. |
Wang Y L, Xia H B, Yuan X F, et al. Multi-delay identification by trend-similarity analysis and its application to hydrocracking process[J]. CIESC Journal, 2018, 69(3): 1149-1157. | |
27 | Zhao J S, Chen B Z, Shen J Z. A hybrid ANN-ES system for dynamic fault diagnosis of hydrocracking process[J]. Comput. Chem. Eng., 1997, 21: 5929-5933. |
28 | Yuan X, Ge Z, Song Z. Spatio-temporal adaptive soft sensor for nonlinear time-varying and variable drifting processes based on moving window LWPLS and time difference model[J]. Asia-Pac. J. Chem. Eng., 2016, 11(2): 209-219. |
29 |
Chen J, Yang C, Zhou C, et al. Multivariate regression model for industrial process measurement based on double locally weighted partial lease squares[J]. IEEE Trans. Instrum. Meas., 2019, DOI: 10.1109/TIM.2019.2943824.
DOI URL |
30 | Ren L, Lv W, Jiang S, et al. Fault diagnosis using a joint model based on sparse representation and SVM[J]. IEEE Trans. Instrum. Meas., 2016, 65(10): 2313-2320. |
31 | Yuan X F, Ge Z Q, Song Z H. Locally weighted kernel principal component regression model for soft sensing of nonlinear time-variant processes[J]. Ind. Eng. Chem. Res., 2014, 53(35): 13736-13749. |
[1] | 林典, 江国梅, 徐秀彬, 赵波, 刘冬梅, 吴旭. 硅基类液防原油黏附涂层的研制及其减阻性能研究[J]. 化工学报, 2023, 74(8): 3438-3445. |
[2] | 刘爽, 张霖宙, 许志明, 赵锁奇. 渣油及其组分黏度的分子层次组成关联研究[J]. 化工学报, 2023, 74(8): 3226-3241. |
[3] | 闫琳琦, 王振雷. 基于STA-BiLSTM-LightGBM组合模型的多步预测软测量建模[J]. 化工学报, 2023, 74(8): 3407-3418. |
[4] | 尹刚, 李伊惠, 何飞, 曹文琦, 王民, 颜非亚, 向禹, 卢剑, 罗斌, 卢润廷. 基于KPCA和SVM的铝电解槽漏槽事故预警方法[J]. 化工学报, 2023, 74(8): 3419-3428. |
[5] | 郭雨莹, 敬加强, 黄婉妮, 张平, 孙杰, 朱宇, 冯君炫, 陆洪江. 稠油管道水润滑减阻及压降预测模型修正[J]. 化工学报, 2023, 74(7): 2898-2907. |
[6] | 李艳辉, 丁邵明, 白周央, 张一楠, 于智红, 邢利梅, 高鹏飞, 王永贞. 非常规服役超临界锅炉的微纳尺度腐蚀动力学模型建立及应用[J]. 化工学报, 2023, 74(6): 2436-2446. |
[7] | 于源, 陈薇薇, 付俊杰, 刘家祥, 焦志伟. 几何相似涡流空气分级机环形区流场变化规律研究及预测[J]. 化工学报, 2023, 74(6): 2363-2373. |
[8] | 吴心远, 刘奇磊, 曹博渊, 张磊, 都健. Group2vec:基于无监督机器学习的基团向量表示及其物性预测应用[J]. 化工学报, 2023, 74(3): 1187-1194. |
[9] | 王子宗, 索寒生, 赵学良. 数字孪生智能乙烯工厂研究与构建[J]. 化工学报, 2023, 74(3): 1175-1186. |
[10] | 张中秋, 李宏光, 石逸林. 基于人工预测调控策略的复杂化工过程多任务学习方法[J]. 化工学报, 2023, 74(3): 1195-1204. |
[11] | 史克年, 郑景元, 钱宇, 杨思宇. 基于马尔可夫链的蒸汽动力系统两阶段随机规划[J]. 化工学报, 2023, 74(2): 807-817. |
[12] | 陈家辉, 杨鑫泽, 陈顾中, 宋震, 漆志文. 以离子液体密度为例的分子性质预测模型建模方法探讨[J]. 化工学报, 2023, 74(2): 630-641. |
[13] | 张家庆, 蒋榕培, 史伟康, 武博翔, 杨超, 刘朝晖. 煤基/石油基火箭煤油高参数黏温特性与组分特性研究[J]. 化工学报, 2023, 74(2): 653-665. |
[14] | 黄宽, 马永德, 蔡镇平, 曹彦宁, 江莉龙. 油脂催化加氢转化制备第二代生物柴油研究进展[J]. 化工学报, 2023, 74(1): 380-396. |
[15] | 李彩风, 王晓, 李岗建, 林军章, 汪卫东, 束青林, 曹嫣镔, 肖盟. 嗜烃乳化菌SL-1与内源菌协同驱油的菌群作用关系研究[J]. 化工学报, 2022, 73(9): 4095-4102. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||