怎么判定离群值? 离群值怎么处理?

判定离群值
离群值(Outlier)是数据分析中的一个重要步骤,用于识别数据集中与大多数观测值显著不同的数值。也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。判定离群值的方法有多种,以下是常见的几种:
1. 箱式图法:
⑴箱式图利用五数概括(最小值、下四分位数、中位数、上四分位数、最大值)确定异常值范围。四分位距IQR=Q3-Q1,其中Q1为下四分位数(第25百分位数),Q3为上四分位数(第75百分位数)。
⑵上限是非异常范围内的最大值,上限=Q3+1.5IQR;下限是非异常范围内的最小值,下限=Q1-1.5IQR。如果某个观测值超出这个范围,则被视为离群值。
2. 拉依达准则(3σ准则):
适用于正态分布数据。首先计算数据的均值(μ)和标准差(σ),大于μ+3σ或小于μ-3σ的数值被视为离群值。这种方法基于正态分布的特性,即数据大多数(约99.73%)会落在均值的三倍标准差范围内。
3. 马氏距离法:
在多变量场景下判断离群值。马氏距离是指多维空间的一种距离测量,如果某个个体的马氏距离大于临界值,就可以认为在检验水准α下,该个体为离群值。这里的检验水准一般为0.005或0.001,临界值的计算与检验标准和自由度相关。
4. 中位数偏离法 :
利用中位数来判定离群值。与均值相比,中位数对数据中的极端值不敏感,因此在某些情况下可能更加稳健。如果某个观测值与中位数的偏离程度超过了某个阈值(这个阈值可以根据数据的具体情况来确定),则被视为离群值。
5. 方差分析法 :
采用方差分析将数据标准化,将标准差设为边界,大于边界的观测值被视为离群值。这种方法将数据标准化后,通过比较观测值与标准差的相对大小来判定离群值。
6. 极差分析法 :
利用数据的最大值与最小值之间的极差来定量分析数据。如果某个观测值与最大值或最小值的偏离程度超过了某个基于极差计算出的阈值,则被视为离群值。
4. 统计检验法:
如格鲁布斯检验(Grubbs' Test)、狄克逊检验(Dixon's Test)等,这些方法基于统计学的原理,通过计算统计量并与临界值比较来判定离群值。
5. 技术或物理上的直接判定:
当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生问题等,可直接判定为离群值。
图形方法
箱线图 :
除了上述的统计方法外,箱线图还可以直观地展示数据的分布情况,并通过离群点的位置直接显示离群值。在箱线图中,离群值会表现为超出箱子边界的点。
散点图 :
将数据点绘制在坐标系中,可以直观地观察数据的分布情况。如果在散点图中存在与其他数据明显不同的点,就可以怀疑其为离群值。
直方图与密度曲线 :
直方图可以用来观察数据的分布情况,如果在直方图中存在与其他数据明显不同的峰或尾巴,就可能存在离群值。同时,可以绘制数据的密度曲线,观察曲线的形态是否与正常数据分布相符。
注意事项 :
⑴在判定离群值时,需要根据数据的具体情况和实际需求选择合适的方法。
⑵离群值的存在并不一定代表数据错误,有时候离群值可能是真实存在的特殊观测值,如极端气候情况下的气温数据。因此,在进行离群值判定时,需要综合考虑数据的背景知识和领域专业知识。
⑶对于判定为离群值的数据,需要根据实际情况决定是保留、修正还是剔除,并记录相关理由以备查询
 
 
处理离群值
处理离群值的方法取决于数据的具体情况、分析目的以及离群值产生的原因。以下是一些常见的离群值处理方法:
删除离群值
方法描述:
删除离群值所在的行或列是最直接的处理方法。这种方法简单易行,但可能会导致数据量减少,从而影响分析的可靠性。
适用场景:
当离群值是由于测量错误、数据录入错误等非正常原因产生时,可以考虑删除。
在数据量较大且离群值占比较小的情况下,删除离群值对整体分析结果影响较小。
替换离群值
方法描述:
将离群值替换为其他值,如中位数、均值、众数或根据数据分布特征计算得到的插补值。这种方法可以保持数据量的完整性,但替换值的选择需要谨慎,以避免对数据分布产生过大影响。
适用场景:
当离群值是由于数据缺失或异常但无法确定具体原因时,可以考虑替换。
在数据量较小或离群值占比较大时,替换离群值可能更为合适。
保留离群值
方法描述:
在某些情况下,离群值可能是真实存在的极端值或重要信息,因此可以选择保留。但需要对离群值进行详细的说明和分析,以便读者或用户理解其存在的原因和意义。
适用场景:
当离群值是总体固有变异的极端表现时,应保留并作为分析的一部分。
在数据探索或初步分析阶段,保留离群值有助于发现数据中的潜在规律和异常现象。
基于模型的离群值检测与处理
方法描述:
使用机器学习或统计学习算法来检测离群值,并根据模型的结果进行处理。这种方法可以处理复杂的数据分布和大量数据,但需要更多的计算资源和算法知识。
适用场景:
当数据量庞大且数据分布复杂时,可以考虑使用基于模型的离群值检测方法。
在需要自动化处理大量数据并实时检测离群值的场景中,如金融风控、网络安全等领域。
注意事项 :
在处理离群值时,应综合考虑数据的背景知识、领域专业知识和分析目的。
对于删除或替换离群值的情况,应记录处理过程和理由,以便后续验证和查询。
在使用基于模型的离群值检测方法时,应注意模型的选择和参数调整,以避免过拟合或欠拟合等问题。
处理离群值的方法多种多样,需要根据具体情况选择合适的方法。同时,也应注意数据的完整性和可靠性,避免对数据造成不必要的损失或误导。
保留离群值并用于后续数据处理:
如果离群值是真实且正常的数据(如总体固有变异的极端表现),应保留并用于后续分析。
在找到实际原因时修正离群值,否则予以保留:
如果能找到离群值产生的技术或物理原因,并进行合理的修正,则应进行修正;否则,应保留离群值。
剔除离群值,不追加观测值:
如果离群值是由于非正常的、错误的原因产生的(如观测、记录、计算中的失误),且无法找到实际原因进行修正,则应剔除离群值。
剔除离群值,并追加新的观测值或用适宜的插补值代替:
在剔除离群值后,为了保持数据集的完整性,可以考虑追加新的观测值或用适宜的插补值(如均值、中位数等)代替离群值。
需要注意的是,处理离群值时应权衡寻找和判定离群值原因所需代价、正确判定离群值的得益及错误剔除正常观测值的风险。同时,被剔除或修正的观测值及其理由应予记录,以备查询。

交流平台:    建了一个全新QQ群,有想加入的朋友可以进群交流。旨在大家共同进步,提高技术能力,为检验检测行业出一份力。检验检测校准1群,搜索群号:177431322;即可入群。

也可选择加入微信群,有想加入的可进群交流,你宝贵的经验是我们前进的动力。注:微信群已满200人,无法扫码入群,加微信w18515462660,邀请你进群。
中认国实(北京)检测技术研究院

中认国实(北京)检测技术研究院培训颁发《资质认定内审员和实验室认可内审员双资格证书》《检验检测机构质量/技术负责人、授权签字人”及最高管理者岗位能力培训合格证书》《实验室质量监督员培训合格证书》《测量不确定度培训合格证书》《仪器设备管理内校员证书》《嗅辨员》或《判定师》或《配气员》或《采样员》资质证书《环境监测技术人员专业技术人员岗位能力培训合格证书》《实验室仪器设备管理员证书》《机动车检验员证》及继续教育计学时证明,培训证书各省市场监督管理局、行业评审组认可,证书统一编号,并在网上公示。

1.新准则资质认定/实验室认可内审员培训、
2.质量负责人/技术负责人/授权签字人及最高管理者培训、
3.恶臭实验室/嗅辨员/判定师/配气员/采样员培训
4.质量监督员培训、
5.测量不确定度评定与表示期间核查培训、
6.实验室仪器设备管理员培训
7.检测实验室重点、疑点、难点问题培训、
8.境监测技术人员(水、土、气、噪声技术规范及现场布点、采样、制样、质保技术)”培训

上方链接为中认国实(北京)检测技术研究推荐

您可能还喜欢...

发表评论