news 2026/5/5 23:51:41

数据合并和处理缺失值的具体案例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据合并和处理缺失值的具体案例

数据合并和处理缺失值的具体案例 数据合并案例场景

数据合并案例场景

在实际业务中,我们经常需要将来自不同来源的数据进行合并,以便进行全面分析。例如,一家电商平台可能有一个包含客户基本信息的表和一个记录客户购买历史的表。这两个表通过客户ID关联,但可能存在部分客户只有基本信息没有购买记录,或者只有购买记录没有基本信息的情况。这种情况下,如何有效地合并这两个数据源,并妥善处理合并后可能出现的缺失值,是数据分析中常见且重要的问题。

创建示例数据

下面我们使用Python的pandas库来创建两个示例数据集,分别模拟客户基本信息和客户购买记录:

python import pandas as pd

客户基本信息

customer_info = pd.DataFrame({ 'customer_id': [1, 2, 3], 'name': ['Alice', 'Bob', 'Charlie'], 'email': ['alice@example.com', 'bob@example.com', None] })

客户购买记录

purchase_info = pd.DataFrame({ 'customer_id': [1, 2, 3, 4], 'purchase_amount': [100, 150, 200, 300] })

合并数据

merged_data = pd.merge(customer_info, purchase_info, on='customer_id', how='outer') print(merged_data)

合并操作原理

数据合并的核心在于找到两个数据集中共同的关联键(本例中的customer_id),然后根据指定的合并方式(如inner、outer、left、right)决定如何处理不匹配的记录。outer合并会保留两个数据集中的所有记录,当某条记录在另一个数据集中不存在时,相关字段会自动填充为缺失值(NaN)。这种合并方式特别适用于需要完整记录分析的场景,尽管它会引入缺失值需要后续处理。

缺失值处理方法

合并后的数据通常会包含缺失值,特别是当两个数据源中的记录不完全匹配时。处理缺失值的方法有多种:

  1. 删除法:直接删除包含缺失值的行(适用于缺失较少的情况)
  2. 填充法:用特定值(如均值、中位数、众数或特定字符串)填充缺失值
  3. 插值法:根据其他数据推测缺失值
  4. 标记法:将缺失值视为一个特殊类别

实际应用案例

假设我们合并后的数据如下:

customer_id name email purchase_amount 0 1 Alicealice@example.com100.0 1 2 Bobbob@example.com150.0 2 3 Charlie None 200.0 3 4 NaN None 300.0

可以看到,customer_id为4的记录在基本信息表中不存在,导致name和email为NaN;而customer_id为3的记录email缺失。我们可以选择用unknown填充name列的缺失值,用no_email填充email列的缺失值:

python merged_data['name'].fillna('unknown', inplace=True) merged_data['email'].fillna('no_email', inplace=True) print(merged_data)

应用意义与扩展

通过合理的数据合并和缺失值处理,我们可以:

  1. 获得更完整的客户视图,支持更全面的业务分析
  2. 为机器学习模型提供干净的数据输入
  3. 发现数据质量问题,如某些客户只有购买记录没有基本信息
  4. 支持跨部门数据整合,打破数据孤岛

这种技术在客户关系管理、销售分析、市场细分等多个业务场景中都有广泛应用,是数据整合分析的基础技能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 22:18:41

hcia练习5

如题划分如图完成

作者头像 李华
网站建设 2026/5/1 3:23:49

用AI撰写高质量网络小说:脑洞生成实操指南

网络小说的核心竞争力,往往藏在“脑洞”里——一个新奇、合理又有延展性的脑洞,能快速抓住读者注意力,让作品在海量内容中脱颖而出。但脑洞的诞生并非偶然,很多创作者都会陷入“灵感枯竭”的困境,反复纠结于设定老套、…

作者头像 李华
网站建设 2026/5/2 1:42:21

AI辅助网络小说创作:高质量脑洞生成实操(附Python代码)

网络小说的出圈关键,往往在于“脑洞”的独特性——一个新奇、逻辑自洽且有延展性的脑洞,能快速打破内容同质化困境,抓住读者注意力。但灵感枯竭是创作者的常态,反复陷入设定老套、剧情俗套、反转生硬的瓶颈,耗时费力却…

作者头像 李华
网站建设 2026/5/4 19:32:02

Angular 前端端口号修改的几种方式

4200 被占是 Angular 开发里最常见的问题之一。 按 从“临时 → 永久” 给你排一下,挑最适合你的。 方法一(最快):启动时指定端口【最常用】 在项目根目录直接运行: ng serve --port 4300或者顺手把 host 也一起指定&a…

作者头像 李华
网站建设 2026/5/4 19:32:04

百度AI:让电脑和手机也能像人一样操作屏幕的智能助手诞生了

想象一下,如果你的电脑或手机能像真人一样看懂屏幕上的内容,知道哪个按钮该点击,哪个输入框该填写,甚至还能帮你完成复杂的多步操作任务,那会是什么样的体验?这听起来像是科幻电影里的情节,但百…

作者头像 李华
网站建设 2026/5/4 19:32:21

备份了,却救不了你?警惕这三种“伪备份”陷阱

很多企业都以为自己有备份——U盘拷过、网盘同步过、甚至买了专业备份软件……可当勒索病毒真正来袭、硬盘突然崩溃时,却发现:备份根本用不了。这不是危言耸听,而是无数中小企业踩过的坑。今天,我们不谈功能多强大,只聊…

作者头像 李华