基于LightGBM算法的电信用户满意度预测

(整期优先)网络出版时间:2023-08-24
/ 2

基于LightGBM算法的电信用户满意度预测

姚越超,王树峰,陶俊达

中国联合网络通信有限公司吉林省分公司 吉林省长春市 130012

摘要:在高速迭代的信息化时代,用户对运营商的服务提出更高的要求,运营商想要更好赢得竞争优势,就必须充分了解和及时解决目前用户在感知体验中存在的问题。本文通过对电信用户数据进行预处理分析、特征工程,使用LightGBM算法建立用户满意度预测模型,从综合感知、业务感知、网络感知、服务感知四个维度进行分析并针对性进行策略维系,从而提高用户满意度。

关键词:机器学习、满意度预测、客户感知、特征工程、集成学习

引言

随着信息化时代的高速发展,通信领域技术成果已成为人民生活的重要组成部分,根据工信部发布的电信服务质量通告,数据显示全国电信用户申诉率为14.8人次/百万用户,在三大电信运营商竞争日益激烈的情况下,要更好赢得竞争优势,就必须充分了解和解决目前用户在感知体验中存在的问题。在用户满意度预测方面,文献[1]结合电商平台数据进行实证研究,将K折交叉验证和网格搜索法相结合并对随机森林算法作改进,准确、高效地预测顾客满意度。文献[2]使用xgboost模型将用户的满意度与用户标签建立联系建立模型,并对关键网络因素针对性优化。在算法研究上,LightGBM算法现已广泛应用于多领域预测分析,文献[3]以银行账户数据为研究基础,通过有监督训练及LightGBM算法不断学习,在完成变量选择的同时择优输出针对欺诈风险的概率预测。文献[4],使用LightGBM 和KDE方法,设计了一种用户级短期负荷概率预测模型框架和预测方法,利用核密度估计方法计算用户未来短期负荷的概率密度及预测区间。在算法与应用相结合中,文献[5]建立了基于LightGBM算法的家宽用户满意度分类预测模型,融合多系统数据,可快速输出用户满意度预测值和网络质量强相关因子,为后续网络质量优化提供有力支撑。本文在已有研究的基础之上,通过对电信用户满意度、投诉数据等进行分析,使用LightGBM建立预测模型,对用户进行综合、业务、网络、服务多维度进行满意度预测,提出有效的分析预警、发现问题、解决问题的方法。

1、相关概念

1.1 IV值筛选

信息价值(IV)[6]是用来表示特征对目标预测的贡献程度,及特征的预测能力,一般来说。IV值越高,该特征的预测能力越强。IV值计算有两个限制条件,首先需要用在有监督的学习任务中,其次预测目标应为二分类。

计算IV值是以WOE为基础再进行运算,WOE,证据权证,描述的是可预测变量与二分类变量之间的关系,具体为先进行分箱处理,再进行WOE值进行运算,再进行IV值的计算,将B表示系统坏的部分,G表示好的部分,则计算公式为:

依据IV值的取值区间及常用评价基准,可以对标签进行筛选,剔除IV值小于0.02的特征,即为各场景的重点指标集。

IV值的取值区间为:[0,正无穷),其含义如下表:

取值范围

含义

IV<0.02:

无用特征

0.02

弱价值特征

0.1

中价值特征

0.3

强价值特征

IV>0.5:

价值过高,不真实

1.2 LightGBM的基本原理

GBDT 主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点LightGBM[7]是一个实现GBDT算法的架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点

LightGBM的如上优点,主要得益于以下几个方面,第一,使用了基于直方图的决策树算法,可以降低特征处理的复杂性,并且能够更好地处理高维稀疏数据;第二,使用了GOSS的采样方法和 EFB的特征捆绑方法,使得模型在训练过程中可以进行高效的垂直并行化计算可以加快模型的训练速度,并且在处理大规模数据集时尤为有效;第三。使用了Leaf-wise生长策略每次选择当前最优的叶子节点进行分裂,可以更快地找到损失函数减小最快的方向,从而加快了模型的训练速度;第四采用了按列存储的方式及特殊压缩技术,可以减少内存访问的次数,提高数据读取的效率。

总的来说,LightGBM是一个性能高度优化的GBDT 算法,其计算公式为

LightGBM = XGBoost + Histogram + GOSS + EFB

2、模型建设方法

2.1 数据准备与预处理

本文采用联通用户三个月的通信相关数据为基础,建立用户满意度预测模型。主要数据范围包括,B域数据,包括用户客观属性、业务属性、业务行为数据;O域数据,包括网络质量、网络行为数据;S域数据,服务感知数据等。

通过数据提取、业务分析、数据清洗等过程,最终选取指标261个,涉及客观属性、业务属性、业务行为、网络质量、网络行为、服务感知等6个维度。

2.2 特征工程及指标选取

针对数据预处理构造的指标,部分可能会影响模型效果,本文采用

IV值理论进行重要特征的筛选,其中系统认为区分好坏的标志使用是否投诉来区分,利用IV值理论逐一计算各指标的IV值并进行倒序排序,最终筛选出重要特征72个。部分指标值如下:

指标名称

IV值

innet_month

0.095

custom_age

0.082

flows_use_t

0.070

flows_for_free

0.064

...

...

2.3模型训练

针对已选取的重点指标,进行采用LightGBM算法进行模型训练,其主要思路为,对未来一个月已经产生实际投诉的用户,依据重点指标挖掘投诉用户前三个月(T-1月~T-3月)特征,建立综合感知、业务感知、网络感知、服务感知模型,预测各场景用户感知低,投诉风险高的用户。

模型训练具体过程如下,

训练样本抽取,由于投诉用户相对于未投诉用户占比较低,导致负样本比例差异过大,因此需要平衡正负样本数据避免模型出现欠拟合的情况。文针对打标投诉的用户进行全量抽取,并按投诉类型分为业务、网络、服务三种分类,针对未达打标的用户,采用简单随机抽样[8]进行抽取,抽样比例1:5。

模型构建及优化,抽样完毕后进行训练集和测试集比例的区分,同时涉及模型算法成本,分别针对四个模型使用LightGBM进行模型构建,对模型规则进行泛化能力验证,为保证模型的命中率覆盖率保持在较平稳的水平,对特征规则进行泛化能力验证,筛选出较好的规则,重复上述步骤,并调整相关参数,直到拟合出模型效果符合预期,即命中率覆盖率达到要求。

通过以上建立出四场景用户满意度预测模型,整体模型建立过程如下图所示:

    

3、分析与评价

模型预测输出综合、业务、网络和服务四个场景的感知风险得分,为全量用户进行感知风险打分,可以辅助预测用户满意情况。为有效评估预测结果的准确性,在模型构建过程中,分别采用的内测和外侧两种方式进行模型效果验证,同时为保证评估指标的全面,使用查准率Precision和查全率Recall进行效果的全面评估[9],公式如下:

以综合感知模型场景为例,模型内测效果如下:


模型外测效果如下:

在与实际客服业务进行实际调研分析,在满意度预测场景中,电信用户投诉预测准确率在10%以上,就可以进行实际的应用,本预测结果在取阈值得分在79分以上时,可以满足实际需求。

4、结束语

对于运营商来说,用户满意度管理工作是一件需要持续投入的重要工作,也是通过用户问题牵引整体公司服务质量改善的重要手段,准确预测用户满意度,挖掘潜在满意度不高的用户就显得非常重要。本文结合实际数据,采用LightGBM算法建立用户满意度预测模型,从多维度场景对用户满意度情况进行预测和画像,在实际用户满意度维系场景下起到关键辅助决策的作用,为电信用户保有,企业形象数据都起到非常关键的作用。

参考文献

[1]张蓓蓓,胡敏.基于网格搜索改进随机森林的顾客满意度预测[J].北京信息科技大学学报(自然科学版),2021,36(04):50-53+58.

[2]许鹏翔,胡琳欣.基于数据建模的家宽用户满意度预测方法[J].中国新通信,2018,20(07):238-239.

[3]杜芮.基于lightGBM算法对银行账户反欺诈模型的应用[J].金融科技时代,2023,31(06):69-75.

[4]周文涛,魏光涛,王泽黎等.基于LightGBM的夜经济用户级短期负荷概率预测方法[J].数据与计算发展前沿,2023,5(03):160-168.

[5]何均均,王江舟.基于LightGBM算法的家庭宽带满意度分类研究和实现[J].江苏通信, 2023,39(02):92-96.

[6]Howard R A. Information value theory[J]. IEEE Transactions on systems science and cybernetics, 1966, 2(1): 22-26.

[7]Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017, 30.

[8]Acharya A S, Prakash A, Saxena P, et al. Sampling: Why and how of it[J]. Indian Journal of Medical Specialties, 2013, 4(2): 330-333.

[9]Tang C, Luktarhan N, Zhao Y. An efficient intrusion detection method based on LightGBM and autoencoder[J]. Symmetry, 2020, 12(9): 1458.