news 2026/6/10 1:04:52

机器学习 —— 数据缩放

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 —— 数据缩放

摘要:数据缩放是机器学习中重要的预处理技术,主要包括归一化和标准化两种方法。归一化将特征值缩放到0-1范围,标准化则将特征调整为均值为0、标准差1的分布。Python中可通过sklearn的StandardScaler实现标准化处理,示例展示了鸢尾花数据集缩放前后的对比,使用fit_transform()方法完成数据拟合和转换。数据缩放能消除特征量纲差异,提升模型性能。

目录

机器学习 —— 数据缩放

示例

输出结果

缩放前的数据:

缩放后的数据:


机器学习 —— 数据缩放

数据缩放(Data Scaling)是机器学习中的一种数据预处理技术,用于对数据中特征的取值范围或分布进行归一化(Normalization)或标准化(Standardization)处理。数据缩放至关重要,因为数据中的不同特征可能具有不同的量纲,而部分算法在处理此类数据时性能会受影响。通过数据缩放,可使每个特征的量纲和取值范围保持一致,从而提升机器学习模型的性能。

数据缩放主要包含两种常用技术:

  1. 归一化(Normalization):将特征值缩放至 0 到 1 之间。具体实现方式为:用该特征的每个取值减去该特征的最小值,再除以该特征的取值范围(即最大值与最小值的差值)。
  2. 标准化(Standardization):将特征值缩放至均值为 0、标准差为 1 的分布状态。具体实现方式为:用该特征的每个取值减去该特征的均值,再除以该特征的标准差。

示例

在 Python 中,可通过sklearn模块实现数据缩放。sklearn.preprocessing子模块提供了用于数据缩放的相关类。以下是使用StandardScaler类实现标准化的示例代码:

from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris import pandas as pd # 加载鸢尾花数据集 data = load_iris() X = data.data # 特征数据 y = data.target # 目标变量 # 将数据集转换为 DataFrame 格式 df = pd.DataFrame(X, columns=data.feature_names) print("缩放前的数据:") print(df.head()) # 使用 StandardScaler 对数据进行标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 拟合数据并完成缩放转换 # 将缩放后的特征数据转换为新的 DataFrame df_scaled = pd.DataFrame(X_scaled, columns=data.feature_names) print("缩放后的数据:") print(df_scaled.head())

在本示例中,首先加载鸢尾花(Iris)数据集并将其转换为 DataFrame 格式,随后使用StandardScaler类对特征数据进行标准化处理,生成缩放后的新 DataFrame。最后通过打印两个 DataFrame,对比数据缩放前后的差异。需注意的是,此处通过缩放器对象的fit_transform()方法同时完成了数据拟合与转换操作。

输出结果

运行上述代码后,将得到如下输出:

缩放前的数据:

花萼长度(厘米)花萼宽度(厘米)花瓣长度(厘米)花瓣宽度(厘米)
05.13.51.40.2
14.93.01.40.2
24.73.21.30.2
34.63.11.50.2
45.03.61.40.2

缩放后的数据:

花萼长度(厘米)花萼宽度(厘米)花瓣长度(厘米)花瓣宽度(厘米)
0-0.9006811.019004-1.340227-1.315444
1-1.143017-0.131979-1.340227-1.315444
2-1.3853530.328414-1.397064-1.315444
3-1.5065210.098217-1.283389-1.315444
4-1.0218491.249201-1.340227-1.315444

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 8:28:43

编程语言排行榜哪个更权威?解读Python等语言排名

了解编程语言排行榜对开发者选择技术栈、评估行业趋势至关重要。排行榜并非绝对权威,但能反映语言在社区活跃度、就业市场需求和技术生态等方面的综合表现。我将从实际应用角度分析几个主流榜单的参考价值,帮助大家更理性地利用这些数据。 编程语言排行…

作者头像 李华
网站建设 2026/6/8 12:15:09

不用写代码!1个小时就能搭建出专属网站,可能吗?

“定制一个网站,没有半个月时间、不花上万块钱,肯定搞不定。”——这是很多人的固有印象。但今天,答案可以是肯定的:一个小时内搭建一个功能齐全的专属网站,是完全可能的。关键在于你是否选对了工具,以及你…

作者头像 李华
网站建设 2026/6/6 7:49:37

计算机毕业设计 java 游戏账号交易平台 基于 SpringBoot 的游戏账号安全交易平台 Java 游戏账号交易与资讯交流系统

计算机毕业设计 java 游戏账号交易平台 54w649(配套有源码 程序 mysql 数据库 论文)本套源码可以先看具体功能演示视频领取,文末有联系 可分享随着游戏产业的快速发展,游戏账号交易需求日益旺盛,但传统交易模式存在安全…

作者头像 李华
网站建设 2026/6/5 8:42:41

计算机毕业设计springboot社区服务平台的设计与实现 基于SpringBoot的社区服务综合管理系统的设计与实现 智慧社区便民服务平台的构建与实现

计算机毕业设计springboot社区服务平台的设计与实现ah2z44z4 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着信息技术的迅猛发展,城市化进程不断加速&#xff0c…

作者头像 李华
网站建设 2026/6/6 7:14:12

基于微信小程序的民宿预订管理系统设计与实现(源码+lw+部署文档+讲解等)

课题介绍 本课题聚焦基于微信小程序的民宿预订管理系统设计与实现,后端依托SpringBoot架构提供稳定业务支撑,针对性解决传统民宿运营中房源展示单一、预订流程繁琐、房态管控滞后、订单管理混乱、房东与房客沟通不畅等核心痛点,构建集房源展示…

作者头像 李华
网站建设 2026/6/9 15:15:09

低代码的“脚本陷阱”:为什么复杂逻辑最终还是回到了IDE?

未来的企业应用建设,会围绕更复杂的业务逻辑展开,而当前大多数低代码实践未能从根本上解决复杂逻辑治理的问题,这一点越来越明显。市场机构预测到2028年,企业级自动化与智能开发市场规模将接近500亿美元级别,其增长主要…

作者头像 李华