基于Weka的原发性高血压的危险因素分析

(整期优先)网络出版时间:2018-12-22
/ 2

基于Weka的原发性高血压的危险因素分析

石琳1王钊2赵辉1崔劭莲1

石琳1王钊2赵辉1崔劭莲1

1齐齐哈尔市第二医院161000;2齐齐哈尔市第一医院161000

摘要:目的:探究影响原发性高血压的危险因素。方法:收集齐齐哈尔市第二医院2016年1月至2017年12月期间,原发性高血压住院患者的临床资料,共计100例,研究变量包括性别、高血压病史、入院时收缩压值、入院时舒张压值、心脏彩超EF值、左室舒张末径、心电图改变、实验室数据(血常规、肝功、肾功、血脂、离子1、血糖)等37个变量。采用Weka3.8软件进行数据一般资料分析:运用百分比和频数的方法对患者的性别情况进行描述统计;应用Weka3.8软件中的分类算法即决策树算法中的J48算法分析影响原发性高血压的因素。结果:在100例住院患者中,原发性高血压多见于男性患者。高血压II级及高血压III级的患者在高血压患者中所占的百分比最高,所以在决策树分析高血压的危险因素时着重分析高血压II级和高血压III级的危险因素。将37个变量转换为CSV格式导入Weka3.8软件,选取J48即C4.5决策树算法,并分别以高血压诊断分级、高血压2级二分类变量、高血压3级二分类变量为分类变量,分别建立3个预测模型,模型中显示总胆固醇、血糖、血脂及直接胆红素与原发性高血压关联较强。结论:性别、血脂、血糖、直接胆红素与原发性高血压的发生相关。

关键词:原发性高血压;数据挖掘;危险因素;决策树

原发性高血压是一种原因不明、危害人类健康的常见病和多发病[1]。因血压升高时各种心脑血管疾病最重要的危险因数[2],研究原发病性高血压的危险因素多年来备受学者关注。多项病因学研究显示,原发性高血压受遗传因素、环境因素、社会因素及经济因素等影响[3]。对原发性高血压的研究,大多数学者应用统计学方法,少部分学者应用Meta分析进行研究,近年来少数学者才开始应用数据挖掘的方法研究该病。本研究旨在应用数据挖掘中的决策树算法,建立预测模型,找出个因素与原发性高血压隐藏的关联关系。

1对象与方法

1.1对象

2016年1月至2017年12月期间在齐齐哈尔市第二医院住院的诊断为原发性高血压的患者,共计100例。研究变量包括性别、高血压病史、入院时收缩压值、入院时舒张压值、心脏彩超EF值、左室舒张末径、心电图改变、实验室数据(血常规、肝功、肾功、血脂、离子1、血糖)等37个变量。

(1)诊断标准

①《中国高血压防治指南(2005年修订版)》中的标准,下列患者诊断为高血压:非药物治疗状态下收缩压(SBP)≥140mmHg和(或)舒张压(DBP)≤90mmHg;既往诊断为高血压且服用降压药SBP>140mmHg和(或)DBP<90mmHg。

(2)纳入标准:①符合原发性高血压(CHD)的诊断标准。②采集的数据无噪声且完整。③既往无精神病史,无认知障碍和交流障碍。

(3)排除标准:①经全面检查确诊为其他所致头痛、头胀者,如心律失常、颈椎病、更年期综合征、重度神经官能症。②患者患有免疫系统疾和(或)正在服用激素

1.2研究方法

本研究的创新点是应用数据挖掘的方法分析原发性高血压的危险因素,本文选择的算法是决策树算法中性能最好的C4.5算法,应用目前最全最新的数据挖掘Weka软件,建立决策树预测模型,形成可视化树图,非常直观的体现危险因素与原发性高血压的关系。

2结果

2.1性别分布

100例原发性高血压患者中男性42人,占42%,女性58人,占58%。患者分布情况见表3.1。

从表3.2可以看出,原发性高血压患者中,心电图改变人数98人,占原发性高血压患者总人数的98%,EF值小于50%的人数为18人,占原发性高血压患者总人数的18%,左室舒张末径大于56cm人数为6人,占原发性高血压患者人数的6%。

从表3.3可以看出,100例原发性高血压患者中,高血压I级患者5人,占高血压患者百分比为5%,高血压II级患者41人,占高血压患者百分比为41%,高血压III级患者54人,占高血压患者百分比为54%。可见高血压II级及高血压III级的患者在高血压患者中所占的百分比最高,所以在决策树分析高血压的危险因素时着重分析高血压II级和高血压III级的危险因素。

2.3决策树分析

将37个变量转换为CSV格式导入Weka3.8软件,选取J48即C4.5决策树算法,设定置信度域C为0.25,设置分支数M为12,选择样本的10倍交叉验证组别,有效提高分类其中样本的精确度,并以高血压诊断分级为分类变量,结果如图3.1。

图3.1原发性高血压发生的决策树模型图

从决策树图形中可见,该决策树图形,层数为5,共9个叶子节点,从图中可以看出,第一层为心电图变化,说明心电图变化与原发性高血压关联最强,第二层为总胆固醇,说明其与原发性高血压的关联较强。

因在高血压分级诊断中高血压II级及高血压III级的患者在高血压患者中所占的百分比最高,所以分别以高血压II级及高血压III级为二分类变量再次设定置信度域C为0.25,同时设置分支数M为12,设定样本的10倍交叉验证组别,建立决策树模型。如图3.2及3.3所示。

图3.2原发性高血压2级发生的决策树模型图3.3原发性高血压2级发生的决策树模型

从图3.2中可以看出该决策树图形层数为4层,位于第一层的仍为心电图改变,临界值为1;第二层为总胆固醇,临界值为1.19mmol/L,与图3.1中的临界值相符;第三层为本次住院当天的收缩压,临界值为160mmHg,与图3.1中的临界值相符;第四层为空腹血糖,临界值为5.41。

图3.3中决策树图形层数亦为4层,位于第一层的仍为心电图改变,临界值为1;第二层为本次入院当天的收缩压,临界值与图3.1和3.2相符;第三层总胆固醇,临界值1.19,与图3.1和3.2相符;第四层为直接胆红素,临界值为2.4。

3讨论

多项调查结果显示男性患高血压的总体患病率要比女性高,并且随着年龄增长,女性患高血压的患病率的增长速度大于男性,青年和中年时期,男性高于女性,老年时期女性高于男性?4?,女性绝经后期较绝经前期患病率高,女性绝经前后的高血压患病率与雌激素的作用有关,本研究显示在100例原发性高血压患者中,男性的患病率亦高于女性,符合高血压的流行情况。

血脂代谢紊乱是高血压发生、发展的重要危险因素?5?。早在1987年就有关于血脂与高血压关系的研究,应用统计学方法研究不同剂量胆固醇与高血压的危险性,在研究中发现,胆固醇值达7.77mmol/L以上时,患者血压的危险性是正常人的5.4倍?6?。亦有研究指出TC/HDL-C预测青年高血压发病率方面有综合优势,TC/HDL-C预测中青年女性高血压的价值更大?7?。本次研究应用决策树的算法分别对分类后得出胆固醇与原发性高血压强关联,说明胆固醇可能是原发性高血压的危险因素,在本研究中,胆固醇产生危险的临界值为1.19mmol/L,该值不在胆固醇正常范围,原因可能与本次研究样本量小,做选取的患者均合并多种病史包括冠心病、糖尿病、脑梗塞等,这些疾病均与血脂代谢紊乱存在关联,会在今后的研究中进一步验证这个分界值。

老年人高血压的患病率随血糖水平的升高而增加,糖代谢异常至使机体大量动员脂肪,引起脂代谢紊乱,是脂肪合成代谢减少?8?。有学者认为高血糖可能由胰岛素抵抗导致,原发性高血压患者可能普遍存在胰岛素分泌异常?9?。还有学者认为血脂代谢紊乱导致高血糖,从而间接引起高血压,本研究结果显示,在血脂大于1.19mmol/L的高血压患者中,血糖高于5.41mmol/L易患原发性高血压,所以血糖与原发性高血压有一定关系,可能是引起高血压2的危险因素。

直接胆红素与血压的关系研究较少,有研究证实,低浓度直接胆红素是高血压的独立危险因素,直接胆红素与血压的升高率呈负相关。本研究也表明直接胆红素与原发性高血压有关联,可能是引起高血压3级的危险因素。

参考文献:

[1]容杰英,钟波涛,肖秀英,等.珠海市广昌社区原发性高血压危险因素调查分析[J].中国初级卫生保健,2014.28(3):73-76.

[2]中国高血压防治指南修订委员会.中国高血压防治指南.高血压杂志,2005.134:2-43.

[3]刘红艳,彭辉,刘奥特,等.中国人原发性高血压危险因素Meta分析[J].中国心血管杂志,2009,14(3):205-209.

[4]高飞,张向,李前宽.不同年龄段、不同性别高血压患病率及相应危险因素分析[J].甘肃医药,2017,36(8):609-611.

[5]林从全,郭华,邓木英,等.高血压与多种代谢异常[J],中华高血压杂志,2007,15(11):949-950.

[6]时景璞,王天爵,石桂荣,等.血脂与高血压病例对照研究[J],中国医科大学学报,1987,10(16):79-81.

[7]邱营,钟晓妮,宋文丰,等.血清总胆固醇与高密度脂蛋白胆固醇比值对重庆市中青年人群高血压的预测价值[J].上海交通大学学报,2012,32(1):96-100.

[8]李小莫,贾晓清,赵黎明,等.老年人血脂、血糖水平与高血压患病率的关系[J].中国保健医学杂志,2011,13(4):321-322.

[9]吴文杰.高血糖与高血压的相关性研究[J].医学综述,2015,21(8):1501-1502.