|
离心泵汽蚀的智能诊断与学习(下)离心泵汽蚀的智能诊断与学习(下)上接:离心泵汽蚀的智能诊断与学习(上)。 4. 汽蚀诊断方案 4.1 开放式预测系统 - 实验环境 开放式预测系统(OPS)是一种预测工具,可为各种预测问题提供解决方案。它主要关注多变量时间序列预测问题,具有实际应用,可降低公用事业公司(天然气、水、热、电)的成本。然而,其预测方法(Kout等人,2004年)可以理解为完全通用,并能够解决回归和分类任务。实现的数据管理结构支持数据压缩、数据过滤、特殊内置转换、问题定义与单个模型预处理或元学习分离。这些特性使OPS成为处理和评估泵数据的合适工具。 4.2 可用数据和应用方法 本文中的分析和结果涉及Ondfej Flek在美国俄亥俄州克利夫兰市Durco Mark III 1K1.5x1-8泵上进行的测量。为了回答第3.4小节中总结的问题,生成并处理了基于这些测量的大量数据集。可以确定区分数据集的几个维度: 1)数据源是轴向、径向或两个传感器的组合; 2)特征数量随所选功率谱密度带宽 - 32和65个频带而变化; 3)三相异步电动机可以通过主电源线直接供电或通过变频驱动(VFD)供电。 因此,对3 x 2 x 2 = 12个不同的数据集进行了分类和比较。 OPS提供了几个要应用的分类器和预测器。它包含决策树(DT)和随机森林(RF)分类器以及神经网络(NN)和支持向量机(SVM)。DTS及其可视化提供了对特征重要性和问题复杂性有了基本的理解,而RF和SVM是众所周知的技术,可以处理由大量特征描述的数据集(涉及大量可用实例)。NNS的应用提供了参考(Flek,2002)在其它两台泵上执行的结果的机会。这四种算法适用于上一段中描述的数据集。 以下两小节描述了最终任务定义的基本方法,考虑了明显的类别顺序性和测量实例之间的依赖性。 4.3 评估取决于样品 最常使用的评估方法(hold out、N fold cross valid-ation、leave-one-out、bootstrapping)假设输入上有一个代表性数据集以及独立的实例。同时,他们假设所有实例都是以恒定的分布绘制的,并且未来的实例将保持这种分布。这些假设在许多实际领域都被违背了。下面是一个试图找出数据集是否具有代表性的示例:有一家生产泵的公司,该公司生产三台不同的泵,并希望为他们配备能够检测其故障状态的诊断工具。故障状态模型是基于对泵的测量数据,但测量是昂贵的。是否有必要测量所有泵?一个明智的做法是只测量其中两台泵。第一个模型可以使用来自第一台泵的数据进行训练,并对第二台泵的数据进行测试,反之亦然。当两个模型都给出令人满意的错误率时,得到的模型(基于两台泵的数据)很有可能也适用于第三台泵。另一种方法,首先混合两种泵的测量结果,然后将它们随机地分配到训练和测试子集中,这可能不能很好地反映来自不同泵的未来数据的性能。 在我们的实验设计中,必须为要诊断的每种类型的泵测量具有代表性的训练数据集,一般的汽蚀模型是不准确的。该方法依赖于泵制造商对几乎所有类型的泵进行的标准泵性能测试程序。(Flek,2002)表明,这种性能测试能够产生涵盖所有运行工况的数据。 数据集还可以包含相关实例。这种现象在处理时间序列测量时经常出现,其中第i个和第i±j个实例之间的依赖性(以协方差表示)仅取决于j,当j→∞时接近0。(Burman等,1994)提出了交叉验证的一种改进,称为H-Block交叉验证。对于每个实例i,有必要将其从训练数据中删除,并在第i个观测值的每一侧删除h个实例。该模型在简化集上进行了训练,并在第i个实例上进行了测试。当h = 0时,这种方法将简化为leave-one-out方法。稍微修改的hv-block交叉验证可以在(Racine,2000)中找到。 在泵测量中,不可能设置和测量任意数量的运行工况(时间和成本原因,有限的阀门数量及位置等)。测量通常包括几个主要点,我们从正常工况开始,逐渐刺激更严重的汽蚀水平。为了增加训练示例的数量,我们为每个运行点生成多个实例(6)。较长的扫描细分为单独处理的时隙。这些训练示例肯定是相互依赖的,必须以类似于上述交叉验证的方法进行处理(我们将其表示为one-block-out,OBO)。序列中相邻状态之间的依赖关系可以通过一种方法进行研究,即单个序列在交叉验证框架中进行单次折叠(表示为一个序列输出,OSO)。 4.4 有序分类 标准分类算法假设类值是无序的,即不表现出任何自然顺序。它们将类属性视为标称量 – 一组无序值。这些无序值无法利用。(Frank和Hall,2001)提出了一种简单的方法,使标准分类算法能够利用类属性中的排序信息。在他们的方法中,任务被转换为一系列二进制类子任务,这些子任务对有序类的顺序进行编码。数据首先从k类序列任务(类属性C的值为v1, ……, vk)转换为k-1二进制子任务,其中第i个二进制属性表示测试C>vi。这种编码类似于神经网络中使用的温度计代码,它编码为k个二进制属性(Smith,1996)。在下一步中,学习k-1概率模型并用于估计k个原始序数类的概率:P(v1)=1-P(C>v1),Vi=2, …, k-1: P(vi)=P(C>vi-1,)(1-P(C>vi),P(vk=1-P(C>vk-1)。具有最大概率的类将分配给实例。 学习预测序数类也可以称为回归问题。3.2节中定义的类标签可以立即使用,也可以在学习之前进行预处理。我们采用了第二种方法,即等级转换(Kramer等人,2001),这也取决于属于各个类别的值。在本文中,我们将序数方法(表示为ORD)与标准无序分类(表示为5C)和回归(表示为REG)一起应用。 5. 取得的成果 前一章中介绍的实验设计导致了对每个建议的数据集进行了22种不同的处理方式(算法x 5C、ORD或REG x OBO或OSO)。为了能够评估和比较所有的方法,模型的输出总是先转换为5个清晰的类,然后计算分类精度。通过McNemar的测试评估了各个方法之间的差异。定义了两种不同类型的分类错误。第一种类型只涉及所有错误分类。每当所需的类与生成的分类不一致时,就会发生错误。第二种类型只关注所谓的硬错误。每当模型将实例错误分类到其相邻类中时,就不会发生这些硬错误。还考虑了每个模型的检测率(区分正常工况形成任意汽蚀水平的能力)。 表1显示了最终结果表的一个片段。结果表明,振动传感器的轴向布置使诊断汽蚀的能力稍好。此外,结合轴向和径向数据也无助于显著提高这种能力。该框架似乎对测试的功率谱密度带宽变化不敏感,我们建议处理65 psdy特性,因为假设可以更好地移植到各种泵。VFD的应用给系统带来了另一种自由度,并略微降低了故障诊断的可靠性。RFs被证明是最合适的学习算法。令人惊讶的是,SVMs的结果比RFs和NNs都差。排序信息的利用可以显著提高DTs和SVMs的分类精度,但无助于改进RF分类器。对于NNs,ORD方法有助于提高整体精度,REG方法仅考虑硬错误更好。与OSO相比,OBO交叉验证得出的准确度估计值相当乐观。与一位领域专家讨论了结果,他认为第一种估计值是乐观的,而第二种估计值则是悲观的。 表1:具有65个功率谱密度带的干线轴向和径向数据集上得出的结果概述。单个单元格显示分类错误[%]。 # 表示轴向和径向数据的相应测试之间存在0.05的显著差异。 6. 结论 提出的方法产生了一个用于诊断离心泵汽蚀的算法框架。诊断是基于对数据扫描的重复评估,该数据扫描基于在短时间内采样的轴向振动传感器。信号被分解为周期性和随机分量,该方法可以处理大量的功率谱密度特征,这保证了它对各种泵类型的通用性。提出的诊断方案包括以下操作:信号传感、信号预处理、特征提取、分类和诊断报告。诊断可以用清晰分类(5C或REG方法)表示,也可以用实数估计再次用REG方法计算或用概率向量表示(ORD方法)。 算法框架和建议方法的实验验证表明,基于它们的状态监测系统能够诊断离心泵中可能出现的各种汽蚀工况,包括早期的汽蚀。只能通过标准泵性能测试程序来调整单个泵类型。这并不意味着额外的努力,因为这一过程是整个泵制造行业普遍实践的一部分。未来的工作是在更广泛的泵类型上验证拟议框架,包括将泵品种扩展到离心泵以外的泵型。 致谢:这项研究工作得到了捷克教育部资助的制造业决策与控制研究项目(MSM 212300013)的支持。 7. 参考文献 |