news 2026/2/25 23:48:24

面向异常检测的提示工程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向异常检测的提示工程

异常值检测的提示工程

通过实际数据项目学习如何检测异常值,并利用AI改进流程。


介绍

给定数据集中的离群值代表极端值。它们极端到可以通过严重扭曲统计数据(比如均值)来毁掉你的分析。例如,在球员身高数据集中,12英尺即使是NBA球员也是个异常值,会显著拉高平均值。

我们该如何应对?我们将通过在数据科学家招聘过程中,Physician Partners要求的真实数据项目来回答这个问题。

首先,我们将探讨检测方法,定义异常值,最后设计执行流程的提示。

什么是异常值检测和移除方法?

异常值检测取决于你拥有的数据集。如何?

例如,如果你的数据集分布是正态的,你可以用标准差或Z分数来检测它们。然而,如果你的数据集不遵循正态分布,可以使用百分位法、主成分分析(PCA)或四分位数间距(IQR)方法。

你可以查看**这篇文章**,了解如何使用箱形图检测异常值。

在本节中,我们将探索应用这些技术的方法论和Python代码。

标准差法

在这种方法中,我们可以通过测量每个值偏离均值的程度来定义离群值。

例如,在下面的图表中,你可以看到正态分布和均值的标准差 \(\pm3 \)。

使用此方法时,首先测量平均值并计算标准差。接下来,通过对均值加减三个标准差来确定阈值,并过滤数据集,只保留该范围内的数值。这里是执行此作的**Pandas**代码。

importpandasaspdimportnumpyasnp col=df['column']mean=col.mean()std=col.std()lower=mean-3*std upper=mean+3*std# Keep values within the 3 std dev rangefiltered_df=df[(col>=lower)&(col<=upper)]

我们有一个假设:数据集应遵循正态分布。什么是正态分布?这意味着数据呈现均衡的钟形分布。这里有一个例子:

使用这种方法,你会标记大约0.3%的数据为异常值,因为3个标准差的均值覆盖了大约99.7%的数据。

IQR

四分位区间(IQR)代表你数据的中间50%,显示数据集中最常见的数值,如下图所示。

要用 IQR 检测异常值,首先计算 IQR。在下一段代码中,我们定义第一和第三四分位数,并从第三个四分位数中减去第一四分位数,得到 IQR (\( 0.75 - 0.25 = 0.5 \))。

Q1=df
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/20 5:44:32

机器学习--序言

机器学习&#xff1a;连接生物数据与生物规律的核心工具在高通量测序技术快速发展的今天&#xff0c;生物信息学已经进入了一个“数据驱动”的时代。无论是转录组、单细胞转录组、基因组、表观组&#xff0c;还是宏基因组和多组学整合分析&#xff0c;研究者面对的已不再是少量…

作者头像 李华
网站建设 2026/2/17 23:44:22

借助AI一次搞定论文五大关键环节,轻松提升中稿率!

对大多数写论文的同仁来说,论文从来都不是不会写,而是在各个关键环节中缺少具体的方法来指导,选题太大,抓不住可发表的切口;文献读了很多,却读不出研究空白;论文改来改去,还是觉得逻辑不顺;投出去迟迟没有回应,甚至投稿前根本不知道该投哪里。 今天七哥将从选题、文…

作者头像 李华
网站建设 2026/2/20 5:36:52

电商运营数据分析的系统架构可配置性

电商运营数据分析的系统架构可配置性关键词&#xff1a;电商数据分析、系统架构、可配置性、数据管道、ETL、实时分析、数据可视化摘要&#xff1a;本文深入探讨电商运营数据分析系统的可配置架构设计。我们将从核心概念出发&#xff0c;分析系统架构的关键组件和设计原则&…

作者头像 李华
网站建设 2026/2/19 2:57:45

智能客服系统vs传统客服系统哪个好?鲸选型推荐的方案帮你选对!

导语&#xff1a;客服系统是企业连接客户的桥梁&#xff0c;但很多企业在选择时都会陷入两难——智能客服系统vs传统客服系统哪个好&#xff1f;作为一名深耕客服领域多年的顾问&#xff0c;我见过太多企业因选错系统而浪费资源。今天&#xff0c;我结合实际案例和数据&#xf…

作者头像 李华
网站建设 2026/2/9 20:30:24

Easypoi Excel导入校验 两种方式

案例一 用JSR 303校验 所用数据结果Controller层 CrossOriginPostMapping("/importStudentVerify")public String importStudentVerify(RequestParam("file") MultipartFile file,HttpServletResponse response) throws Exception {if (file.isEmpty()) {t…

作者头像 李华