基于大数据的用户疑似窃电算法研究

(整期优先)网络出版时间:2019-05-15
/ 2

基于大数据的用户疑似窃电算法研究

陈红伟

(国网浙江长兴县供电有限公司浙江湖州313100)

摘要:为提高反窃电工作效率,开展基于用电信息采集系统的大数据用户疑似窃电算法研究,提出了基于电量波动的离群点算法及聚类算法疑似度模型、基于负荷数据的支持向量机算法疑似度模型和窃电行为分析模型等窃电模型,通过窃电疑似度计算输出,能更精准地发现窃电用户,从而提升窃电查处效率和管理水平。

关键词:用电信息采集系统;大数据;疑似度模型;窃电行为

近年来,窃电现象时有发生,窃电行为使电力企业蒙受巨大的直接经济损失,同时容易危害电网的安全运行,严重损害正常用户的利益。打击窃电行为有助于建立良好的用电秩序、维护电网正常运营,具有重要的现实意义[1]。

长期以来,在反窃电方面以人工排查为主,有效的反窃电技术措施不足,防治手段落后。即使排查到窃电用户,对其窃电时间取证难,造成难以准确计算窃电量。现有防窃电手段的实时监控能力往往不足,难以对窃电行为做出及时反应。因此,现实工作中迫切需要有更全面、系统、完善的防窃电措施。如何利用先进的技术手段和科学的管理办法开展反窃电工作,一直是供电企业的一项工作重点[2]。

随着智能电表和用电信息采集系统的全面推广,实现了用户电表海量数据的远程集抄,能够为反窃电工作提供强大的技术基础。用电信息采集系统是在原用电现场管理系统的基础上发展起来的面向电力客户需求侧的电力营销支持系统,对电力用户的用电信息进行采集、处理和实时监控[3]。它可以按照一定周期定时采集用户计量点多种电力数据,实现数据采集的准确性、完整性、及时性和可靠性,为用电管理提供丰富齐全的统计分析数据,如总有功无功电能、三相电压电流、功率因数等等。在大数据时代背景下,基于采集系统的大量电力数据,分析用户的统计数据,对计量、用电异常进行定位,将能极大地提高反窃电的效率。目前基于用电信息采集系统的防窃电技术研究,大多数选取功率或有功电量作为窃电判据中的电气参考量[4],但对窃电引起的电气参量的变化规律分析不足,因此,研究基于用电信息采集系统的智能防窃电技术,具有重要的理论意义和应用价值[5]。

本文以用电信息采集系统数据支持为基础,建立了几种窃电疑似度分析模型,展开疑似窃电分析,.精准定位窃电用户,提升窃电查处效率和管理水平。

1基于电量波动的离群点和聚类算法窃电模型

将用户用电数据进行预处理,剔除异常值的影响,计算相应的电量波动率,利用优化的基于距离的离群点算法或是聚类算法将窃电嫌疑数据从海量数据中筛选出来进行分析处理,并设置恰当的窃电报警条件进行报警。

通过大量的数据分析,本课题提出了电量波动系数:

其中,代表样本的标准差,代表样本的均值,为用户单日电量,为日电量平均值,N为累计天数。CV是单位均值上的离散程度,CV越大,反映样本偏离度越大,即电量波动程度越大。该系数的意义在于:

①为离群点算法发现更合适的质心,便于准确挖掘窃电嫌疑点;

②设置合适的波动系数阈值,样本波动系数小于阈值采用离群点算法,大于等于阈值时采用聚类分析,这样做的目的在于解决离群点算法对于波动程度大的样本不适用的问题。

图1是基于离群点算法计算窃电疑似度的模型流程图。在对数据样本进行必要的预处理后,采用离群点算法挖掘异常嫌疑数据。在此过程中,采用电量波动和求两次均值的方法得到该样本的“标准值”,以“标准值”为条件筛选离群点,筛选出离群点以后,选择最长连续的一段报警时间设置连续7天异常,第7天开始报警的条件得到系数f(报警1天f=0.1;报警2天,f=0.2,……,报警不少于10天,f=1),窃电疑似度Sd=p×f(p为离群点算法参数)。

图2是基于聚类算法计算窃电疑似度的模型流程图。在对样本进行必要的预处理以后,根据电量一般存在异常偏高、正常、异常偏低三种情况,算法初始情况下将样本分为3类,考虑到可能会出现因为样本聚类中心过于接近导致嫌疑类判别错误的情况,需要对聚类结果进行分析筛选出嫌疑类。通过大量的样本分析发现,对于聚类中心都很小(电量值小于6千瓦时)且聚类中心最大类与最小类差值很接近(电量值小于5千瓦时)的情况,用户整体用电量偏低基本都是由于窃电导致的,因此直接设置疑似度Sd=0.7;而对于某一类个数少于总体5%的情况,应该排除该类,以避免偶然情况导致嫌疑类判别不准确;对于样本聚类中心很接近且普遍偏高(电量值远大于6千瓦时)的情况,直接设置疑似度Sd=0.2,因为这种情况窃电可能性很小。具体的嫌疑类确定方法以及最终的疑似度计算方法见流程图,此处不作详细描述。

图2聚类疑似度算法模型

2基于负荷数据的支持向量机算法窃电模型

支持向量机算法作为模型基础,通过对高压用户的负荷数据进行分析处理,以识别正常用户和窃电用户。经过分析研究表明,三相电流数据能很好地体现窃电用户和正常用户不同的用电特征。因此以三相电流数据作为研究对象。支持向量机算法模型的步骤主要分为数据采集、数据预处理、样本选取、支持向量机分类、决策判断等四个步骤。

图4支持向量机样本选取流程图

3基于用户用电特征的窃电行为分析模型

根据已知窃电行为的用电特征类型库建立专家模型,以便用于窃电方式(行为)分析。对高嫌疑度的窃电用户,根据历史用电数据,特别是最近一段时间的计量异常信息,所得到的用电特征与类型库进行比对,从而判别用户采取了哪种窃电方式(行为)。

通过对电能计量装置的原理进行分析,针对四种不同计量方式,建立了四种窃电行为分析模型,如表2.1-2.4所示,针对四种不同计量方式,确立窃电行为分析流程,如图2.5-2.8所示。

窃电行为分析模型是在窃电疑似度算法模型的基础上建立的,需要先通过算法模型判断窃电发生时间,然后提取相应的电压电流变化参数()寻找表中对应的窃电行为,再通过与用电量(功率)等状态计算进一步确定窃电行为。

分析原理主要依据实际上的用电功率与理论上的用电功率是否一致来判断发生了哪一类窃电行为。在流程图中可简化为判断实际中的用电功率变化与表3.1-3.4中对应的理论上的用电功率变化是否一致。

图6低压三相窃电行为分析流程图

图7低压单相窃电行为分析流程图

4模型应用

用基于电量波动的离群点和聚类算法窃电模型测试浙江已有的通过现场稽查手段抓获的22户高压窃电用户,有15户疑似度Sd是在0.5以上,因此可以判定这15户是存在窃电的,窃电辨识准确率为Q=15/18*100%=83.3%。其余3户辨识错误的原因可能是由于在3个月的数据样本中,窃电数据占比较小导致疑似度低或是没有达到算法模型中的报警条件而没有报警。

用基于负荷数据的支持向量机算法窃电模型在随机测试的全省2200个高压用户(注:这2200个用电用户均为浙江多个地区的高压用户,但是在算法分析时都是不确定是否为窃电用户)中,有窃电嫌疑的用户大概占比6%(疑似度Sd>0.5),而实际疑似度Sd>0.7(即用户存在重大窃电嫌疑,需要实施现场窃电排查)的用户仅为10户,需排查用户占比0.27%。这样就大大减少了现场排查的工作量。

将基于电量的离群点和聚类算法和基于负荷数据的支持向量机算法联合分析,对浙江省多地区2200户高压用户同时段的用电数据的分析结果进行比较。

表1两种算法检测结果比较分析

将两种算法的分析结果结合得到两种算法均检测出高疑似度的用户有92户,可见当两种算法结合时可相互验证,进一步缩小用户范围,提高算法整体的效率。从上述92户窃电高疑似度用户当中选取疑似度靠前的10户进行分析,其中有3户属于前述提到的22户实际查证窃电的用户,证明算法具有一定的准确性。可见对两种算法模型进行比较分析,可以增加模型的准确率进而提高防窃电的工作效率。

5结束语

本文基于窃电现状和一些反窃电的研究成果,在目前用电信息采集系统数据处理分析不够充分的情况下,建立了基于电量波动的离群点算法以及聚类算法疑似度模型、基于负荷数据的支持向量机算法疑似度模型、低压台区线损分析模型、窃电行为分析模型等窃电模型,输出疑似窃电用户清单,能更精准地发现窃电用户,为防窃电工作提供了一种新的思路,提升了窃电查处效率和管理水平。

参考文献:

[1]肖坚红,严小文,周永真,等.基于数据挖掘的计量装置在线监测与智能诊断系统的设计与实现[J].电测与仪表,2014,51(14):1-5.

XIAOJH,YANXW,ZHOUYZ,etal.Designandimplementationofmeteringdeviceonlinemonitoringandintelligentdiagnosissystembasedondatamining[J].ElectricalMeasurementandInstrumentation,2014,51(14):1-5.

[2]王颖琛,顾洁,金之俭.基于高维随机矩阵分析的窃电识别方法[J].现代电力,2017,34(6):71-78.

WANHYC,GUJ,JINZJ.Electriclarcenyrecognitionmethodbasedonhighdimensionalrandommatrixanalysis[J].ModernElectricPower,2017,34(6):71-78.

[3]饶艳文,范杏元.高压供电计量方式的选择[J].电测与仪表,2012,49(10A):80-83.

RAOYW,FANXY.Theselectionofhigh-voltagepowersupplymeteringmethods[J].ElectricalMeasurementandInstrumentation,2012,49(10A):80-83.

[4]周文婷,顾楠,王涛,等.基于数据挖掘算法的用户窃电嫌疑分析[J].河南科学,2015,33(10):1767-1772.

[5]杨锡运,孙宝君,张新房,等.基于相似数据的支持向量机短期风速预测仿真研究[J].中国电机工程学报,2012,32(4):35-41.