简介:极端值亦称离群值或边远值,即在观测值中远远偏离数据主体部分的个别值,这些值不能服从假定的概率分布。如果将极端值和其它数据不加区别地等同对待,会使数据的离散程度加大,计算出的数字特征不能反映主体数据的特征。对极端值进行识别并加以处理,是探索性数据分析的一个重要问题。经过适当处理后的数据,具有较强的耐抗性,即对局部数据的不良行为具有不敏感性。在统计分析中,识别极端值的方法有以下几种:(一)四分展布法四分展布法是一种经验法,首先计算中位数和四分位数:设有数据X1,X2…Xn,将其从小到大排列,记为X(t),X(2)…X(n);当n为奇数时,n=2k+1,中位数=X(k),中位数位次为k+1;当n为偶
简介:本文运用协整、Granger因果、结构VAR模型、预测误差方差分解和非循环指向图(DAG)等方法对“泛珠三角”九省消费价格之间的联系进行了实证分析.结果表明,在样本期内:①“泛珠三角”九省消费品价格两两之间存在长期稳定的协整关系;②广东、海南、湖南和江西是“泛珠三角”的价格发动中心,福建和云南在“泛珠三角”中处于边缘地带;③从短期来看,福建、广西、贵州和湖南的内生性比较强,广东、海南、江西、四川和云南的外生性较强.
简介:在大数据环境下,劳务众包APP平台上任务的完成率是反映平台运营的重要指标。利用某劳务众包APP平台上的会员信息以及一个已结束项目的任务数据,辅以地区宏观数据,挖掘出六个影响因素,构建相应的预测模型。Fisher线性判别模型表明,价格、距离、非户籍人口比例对完成度有正向影响,而人均可支配收入、交通支出和失业率有负向影响;随机森林模型显示,按照重要性排序,影响因素依次是距离、交通支出、非户籍人口比例、价格、可支配收入和失业率。此研究结论能及时为平台、商家的任务发布策略提供参考,有助于平台更加有效地运营。