人工智能技术辅助电气操作的研究及应用

(整期优先)网络出版时间:2022-06-06
/ 3



人工智能技术辅助电气操作的研究及应用

沈晓兵

浙江浙能电力股份有限公司萧山发电厂

摘要:电气误操作的发生,会导致严重的安全事故,轻则损坏设备降低发电可靠性,重则导致人身伤害与主设备损坏。针对这个问题,本文就结合机器视觉、语音识别、语音合成等技术辅助电气操作的方法上做出了一些讨论。使用图像信息采集设备获取现场信息,通过YOLO算法识别标识牌来防止走错间隔,并识别操作目标的位置,利用YOLO算法识别操作人手指关键点位置,根据操作票信息判断是否有误操作风险,辅助操作人正确操作。

关键词:机器视觉、语音识别、语音合成

1.概述

人工智能,简称AI,它一种基于计算机理论技术逐步发展起来的涵盖了数学、生物学、逻辑学、认知科学等跨领域的多学科综合交叉技术。这一创新性应用技术的出现改变了人们传统的生产生活,它通过采用计算机模拟人脑,应用人的意识或思维,使一些机器设备具有人的智能,替代人发出行为指令来完成各种操作,延伸人的智能,胜任人的工作,满足了高层次的应用需要,属于多个领域研究成果的融合,有着广泛的应用空间。

在电气操作过程中,电力设施命名、电气操作路径、电气操作时间等客观因素和操作人工作经验、工作态度等主观因素,都有可能导致出现电气误操作。而通过使用自动语音识别(ASR)、语音合成(TTS)、计算机视觉(CV)、机器视觉(MV)、实时手势识别(HGR)等人工智能技术辅助操作人执行电气操作,可以在很大程度上避免以上原因导致的误操作。

2.技术介绍

2.1.计算机视觉算法YOLO

YOLO是一种使用全卷积神经网络的实时目标检测算法,它是 You Only Look Once的缩写。与其他目标检测的算法相比,YOLO在一个网络模型中完成对图像中所有对象边界框和类别预测,避免了花费大量时间生成候选区域。它的强项是检测速度和识别能力,而不是完美地定位对象。

与目标识别算法不同,目标检测算法不仅需要预测目标的类标签,而且需要提供检测目标的位置。YOLO算法对整个图像使用全卷积神经网络,将图像划分为多个网格区域,并预测每个区域目标的边界框和概率,而目标预测的概率则会随即用来对边界框的精确度加权,从而获得准确的边界框位置和尺寸。

现实生活中存在大量如封面街道图中的场景,无人驾驶汽车必须实时检测到周围所有对象的位置,才能让系统做出正确的决策和控制。YOLO算法能够快速定位并分类不同的对象,并且让每个对象周围都有一个边界框和相应的分类标签。

2.2.自动语音识别

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关”系统。使用训练的系统称为“说话者依赖”。

2.3.语音合成

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。

3.使用人工智能技术避免误操作

在操作过程中,若操作人操作前不核对设备状态,操作中出现跳项、漏项、走错间隔、认错开关,操作时不唱票、不复诵、不预演、不进行三核对,操作后不打勾、不检查、不修正设备状态等,就极有可能出现误操作。

3.1.通过ASR/TTS技术避免跳项、漏项

若操作人在操作过程中,存在懈怠的情况,未严格按照规章制度进行唱票、复诵,操作后不打勾、不检查,则很有可能导致操作跳项、漏项的情况,进而导致误操作的发生。

通过TTS技术,可以将操作票中的文字内容已语音的形式进行播报,对操作人进行提醒;通过ASR技术,可将操作人的复诵结果转为文字与操作内容进行对比,当操作人的复诵结果正确后,通过TTS技术播报语音通知操作人复述正确。当操作完成后,操作人复述操作结果,由ASR技术识别并记录。

3.2.通过机器视觉技术避免走错间隔

由于操作柜与操作柜、间隔与间隔之间存在一定的相似性,有时无法通过外形来判断,若操作人没有核对设备名称,则可能会走错间隔,导致误操作发生。

通过给所有间隔粘贴二维码的方式,精确区分每个间隔,当操作人需要进行操作时,使用机器视觉技术定位操作人准备操作的间隔,再识别间隔中粘贴的二维码判断操作人准备操作的间隔是否正确。

3.3.通过计算机视觉技术避免认错开关

在同一间隔下,仍然存在两个甚至多个开关密集摆放的情况,如压板、空开等类型的开关。操作人可以通过开关标识牌来判断是否是待操作开关,但如果开关标识牌污损,或操作人懈怠不去核对开关标识牌,则有可能出现认错开关的情况,导致误操作发生。

通过计算机视觉技术,可以定位间隔中所有的开关,以及定位操作人手部的位置,操作人在操作开关前,先指向想要操作的开关,对比定位到的操作人手部的位置以及定位到的开关位置,可以判断操作人想要操作的开关是否正确。当判断正确时,通过TTS技术通知操作人指向的开关正确。

4.应用方法

4.1.整体架构

本方法硬件上主要由一个或多个便携、穿戴设备,多台服务器主机组成;软件上主要由移动APP端、视频采集端、视频播放端、音频采集端、音频播放端、后台系统服务、ASR语音识别服务、TTS语音生成服务、机器视觉识别服务、计算机视觉识别服务以及其他用于消息交互、数据存储、系统维护的服务组成。

其中,移动APP端、视频采集端、视频播放端、音频采集端、音频播放端为与操作人直接进行交互,构成人性化人机交互体验的主要部分,他们可以集中部署于一个便携、穿戴设备上,也可以分散部署于多个不同的便携、穿戴设备。移动APP端用于满足操作人需要进行的各类复杂操作;视频采集端主要用于采集计算机视觉识别与机器视觉识别所需的视频画面;视频播放端主要用于方便操作人观察当前拍摄画面,调整视频采集端设备的位置、角度与焦距等;音频采集端主要用于采集ASR语音识别服务所需的语音数据;音频播放端主要用于播放各类提示音、TTS语音生成服务生成的各类语音;同时,以上内容也满足了操作人与专家进行音视频通话所需的条件。

后台系统服务、ASR语音识别服务、TTS语音生成服务、机器视觉识别服务、计算机视觉识别服务以及其他用于消息交互、数据存储、系统维护的服务主要用于承担高硬件消耗、存在集中计算需求的数据处理任务。为了保证服务的稳定性,语音服务及视觉识别服务各自需要占用至少一台单独的服务器。

4.2.便携、穿戴设备的应用方法

便携、穿戴设备需要具有运行移动APP的能力、采集视频的能力、播放视频的能力、采集语音的能力、播放语音的能力。同时满足以上所有条件的有移动智能终端及智能AR眼镜,但移动智能终端拍摄视频需要维持手持状态,在执行操作票的过程中必然会对操作人产生负面影响,而智能AR眼镜则存在设备过重、眼镜镜片及其画面会对操作人视野产生负面影响等问题。

由于以上问题的存在,实际应用中未选择以上两款设备中的单独一款,而是采取使用安装于安全帽上的具有采集视频能力与采集音频能力的轻便头环与移动智能终端的组合,同时避免了设备需手持、设备过重、设备对操作人视野产生负面影响等问题。

4.3.语音交互的应用方法

尽管存在大量厂家在ASR技术中投入可观科研力量进行研发,并且已经有大量落地产品,但由于现实世界中问题的复杂性与多种客观条件下各类其他因素的影响,ASR技术在应用中仍然存在较高概率的误识别情况,为了减少误识别造成的影响,我们提出了多种方法。

4.3.1.通过关键词序列减少识别量

在操作内容中,并非所有文字内容都是必须的,所以通过多个关键词组成一个具有顺序的序列,即可唯一标识一条操作内容。在实际应用中,只要识别到操作人复诵的内容中,可以按照正确的顺序匹配到所有的关键词,即可认为操作人复诵结果正确。

4.3.2.为关键词配置多种模糊匹配读音

在识别过程中,很可能出现关键词被识别为近似读音的可能性,如“合上”被识别为“和尚”,“凝结”被识别为“临街”。

为了解决这个问题,可将字符匹配改为拼音匹配来解决同音不同字的问题,为单个关键词配置多个模糊匹配读音来缓解近音词的问题。

4.3.3.使用热词技术

目前ASR识别技术通常都带有热词功能,可以提高热词的识别率,同样可以一定程度上缓解同音不同字与近音词的问题。

4.3.4.定制化训练模型

可以采集所有操作人复诵操作内容的数据,使用此数据对ASR识别模型进行定制化训练,提高识别率,降低误报率。

4.4.机器视觉技术的应用方法

4.4.1.素材采集与清洗

通过采用的信息采集设备,以尽可能的贴合实际操作场景的模拟操作方式,采集现场图像数据作为验证集。同时模拟尽可能多情况下的操作,如不同的现场光照条件、不同身高操作人员进行操作、多种角度进行操作等。

在采集到足够的数据后,对数据进行清洗,剔除没有需识别目标的数据、剔除画面过于模糊的数据、剔除画面过亮或过暗的图片等。

4.4.2.数据增强

在得到数据后,对数据进行数据增强,提高模型健壮性。常见的数据增强手段有如下几种。

  • 几何变换增强:对数据进行几何变换,如平移、旋转、变形、翻转、缩放等操作。

  • 颜色变换增强:对数据内容进行更改,如颜色变换、噪声、模糊、填充等。

  • 数据擦除增强:即模拟画面被遮挡的情况,如Random erasing data augmentation、Cutout、Hide-and-Seek、GridMask Data Augmentation等。

  • 数据拼接增强:将多组数据通过半透明覆盖、拼接等方式进行组合,如mixup、cutmix、Mosaic等

  • 纹理迁移增强:将其他数据的纹理特征迁移至本数据中,如Stylized-ImageNet等。

  • GAN网络生成:使用GAN对抗生成网络生成新的数据。

4.4.3.模型训练

使用经过增强的数据,将数据集按照7:3比例随机分割为训练集与测试集,同时将最贴近实际操作情况的原始数据作为验证集,训练YOLO v4算法模型。在训练过程中,根据中间模型在验证集上的识别效果,重新于现场采集数据、清洗、增强并训练。

4.4.4.模型使用

由后台服务提供图像、操作进度、操作目标等相关信息,调用模型对图像进行识别,输出操作目标位置、操作人手部位置等信息。

参考文献

[1]黑颖顿.头戴式摄像机变电站防误操作图像识别[J].云南电力技术,2015,43(01):96-101.

[2]纪永辉.浅析发电厂电气误操作事故原因及应对措施[J].中国设备工程,2019(16):87-88.

[3]张丹,单海军,王哲,吴陈炜.无人系统之“眼”——计算机视觉技术与应用浅析[J].无人系统技术,2019,2(02):1-11.

[4]王翰淼. 图像识别在智能变电站一键顺控操作中的应用研究[D].安徽理工大学,2019.