news 2026/1/12 9:56:13

Python Victor-DAY 8 标签编码与连续变量处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python Victor-DAY 8 标签编码与连续变量处理

知识点复盘:

  1. 字典的简单介绍(增删查改)
  2. 标签编码(字典的映射)
  3. 对独热编码的深入理解----n个不相关变量只有n-1个自由的
  4. 连续特征的处理:归一化和标准化----一般选一个即可,谁好谁坏做了才知道,除非有先验知识。

至此,常见的预处理方式都说完了

作业:对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,包括

  1. 缺失值的处理
  2. 离散特征的编码
  3. 连续特征的归一化or标准化
  4. 数据可视化(单特征、单特征与标签)
import pandas as pd data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') data.head()

输出

缺失值的处理

data.isnull()

输出

data.head()

输出

离散特征的编码

data.columns

输出

print(data.dtypes)

输出

for discrete_features in data.columns: if data[discrete_features].dtype == 'object': print(discrete_features)
data['age']

data['age'].value_counts()

整合

连续特征的归一化or标准化

数据可视化(单特征、单特征与标签)

# 手动实现归一化 def manual_normalize(data): min_val = data.min() max_val = data.max() normalized_data = (data - min_val) / (max_val - min_val) return normalized_data data['sex'] = manual_normalize(data['sex']) data['sex'].head()

输出

0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 Name: sex, dtype: float64
# 使用sklearn进行归一化处理 from sklearn.preprocessing import StandardScaler, MinMaxScaler data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') min_max_scaler = MinMaxScaler() data['sex'] = min_max_scaler.fit_transform(data[['sex']]) data['sex'].head

输出

<bound method NDFrame.head of 0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 ... 298 0.0 299 1.0 300 1.0 301 1.0 302 0.0 Name: sex, Length: 303, dtype: float64>
# 使用sklearn进行标准化处理 data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') scaler = StandardScaler() data['sex'] = scaler.fit_transform(data[['sex']]) data['sex'].head()

输出

0 0.681005 1 0.681005 2 -1.468418 3 0.681005 4 -1.468418 Name: sex, dtype: float64

数据可视化

单特征

单特征与标签的关系

plt.figure(figsize=(12, 6)) sns.violinplot(x='age', y='chol', data=data, scale='width', inner='quartile')#把年龄(age)当横轴分组,胆固醇(chol)当纵轴连续量,画“小提琴”——左右鼓包表示每个年龄组里 chol 的分布形状,宽度代表样本量。 plt.title('Cholesterol vs. age') plt.xlabel('Age (years)') plt.ylabel('Cholesterol (mg/dL)') plt.tight_layout() plt.show()

输出

import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(8, 5)) # 1. 只画 KDE 轮廓,填不填都可以 sns.kdeplot(data=data, x='chol', hue='target', fill=True, # 填色更直观 bw_adjust=0.7, # 平滑度 common_norm=False,# 各自积分=1,方便比较形状 palette='Set2') # 2. 细节美化 plt.title('Cholesterol distribution by Heart Disease') plt.xlabel('Cholesterol (mg/dL)') plt.ylabel('Density') plt.legend(title='Heart Disease', labels=['No', 'Yes']) plt.tight_layout() plt.show()

输出

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/10 21:44:13

Open-AutoGLM如何实现个性化教学?3个真实场景深度拆解

第一章&#xff1a;Open-AutoGLM如何重塑个性化教学新范式Open-AutoGLM作为新一代开源自动生成语言模型&#xff0c;正以强大的语义理解与内容生成能力推动教育领域的深层变革。其核心优势在于能够根据学习者的知识水平、学习风格和兴趣偏好&#xff0c;动态构建个性化的教学路…

作者头像 李华
网站建设 2026/1/9 9:42:46

家政服务平台怎么选,选对平台很重要

在家政服务行业&#xff0c;用户最关心的从来不是“平台多不多”&#xff0c;而是“靠不靠谱”。随着生活节奏加快&#xff0c;家庭对保洁、保姆、月嫂、家电维修等上门服务的依赖越来越高&#xff0c;但现实情况是&#xff1a;服务质量不稳定、交易缺乏保障、责任边界模糊&…

作者头像 李华
网站建设 2026/1/11 11:04:49

灾情突袭如何快速响应?,Open-AutoGLM智能调度系统全流程拆解

第一章&#xff1a;灾情突袭如何快速响应&#xff1f;&#xff0c;Open-AutoGLM智能调度系统全流程拆解当突发灾情导致通信中断、资源调配失序时&#xff0c;应急响应的每一秒都至关重要。Open-AutoGLM 智能调度系统通过融合大语言模型与自动化决策引擎&#xff0c;实现从灾情识…

作者头像 李华
网站建设 2025/12/25 22:33:07

网络安全完全入门指南:从零开始的学习路线图,一篇搞定基础

当我们学习网络安全的时候&#xff0c;需要对它的基础知识做一个简单的了解&#xff0c;这样对以后的学习和工作都会有很大的帮助。本篇文章为大家总结了网络安全基础知识入门的内容&#xff0c;快跟着小编来学习吧。 计算机网络 计算机网络是利用通信线路将不同地理位置、具…

作者头像 李华
网站建设 2026/1/10 11:50:40

【Open-AutoGLM应急调度解密】:揭秘AI驱动救灾决策的底层逻辑与实战应用

第一章&#xff1a;Open-AutoGLM应急调度解密Open-AutoGLM 是一种面向大规模图神经网络任务的自动化调度框架&#xff0c;专为动态资源环境下的紧急任务响应而设计。其核心机制融合了图结构感知的任务分解与实时资源预测模型&#xff0c;能够在毫秒级完成计算负载重分配。架构概…

作者头像 李华
网站建设 2025/12/27 6:54:43

为什么顶尖车企都在布局Open-AutoGLM?一文看懂其战略价值

第一章&#xff1a;为什么顶尖车企都在布局Open-AutoGLM&#xff1f;一文看懂其战略价值随着智能汽车进入AI驱动的新阶段&#xff0c;自然语言处理与车载系统的深度融合成为竞争焦点。Open-AutoGLM作为专为汽车场景优化的开源大语言模型&#xff0c;正迅速成为行业基础设施的核…

作者头像 李华