news 2026/5/9 1:31:10

Iridescent:Day22

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Iridescent:Day22

https://blog.csdn.net/weixin_45655710?type=blog
@浙大疏锦行
DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。
作业:
自行学习参考如何使用 kaggle平台,写下使用注意点,并对下述比赛提交代码
您好!这是一个很好的复习和拓展学习的机会。

🎯 Kaggle 平台使用指南及注意事项

Kaggle 是全球最大的数据科学和机器学习社区,它不仅是一个竞赛平台,更是一个强大的学习和协作生态系统。

一、Kaggle 的核心板块与使用方式

Kaggle 平台主要由四个核心板块构成:

板块核心内容主要作用
Competitions (竞赛)解决真实世界问题的挑战,通常提供数据、评估指标和奖金。实践应用:在时限内解决复杂问题,应用和测试您的模型。
Datasets (数据集)丰富的公开数据集,涵盖各种领域(CSV, JSON 等)。数据探索与练习:查找高质量数据进行练习、可视化或构建项目。
Code / Notebooks (代码/内核)用户分享的代码、教程和分析报告(基于 Jupyter/R Markdown)。学习与借鉴:学习他人解决问题的方法、数据清洗技巧和模型构建流程。
Discussion (论坛)社区成员交流、提问和讨论竞赛或技术的场所。社区交流:提问、回答、讨论算法和数据科学趋势。

二、使用 Kaggle 的关键步骤和建议

1. 竞赛参与流程
步骤行动注意事项
1. 注册/加入注册账号,加入您感兴趣的竞赛。仔细阅读**“Rules”(规则)和“Data”**(数据)页面,了解评估指标(Metric)。
2. 初步探索Code/Notebooks中搜索其他用户分享的**“EDA”**(探索性数据分析)Notebook,快速了解数据。不要直接复制别人的代码,要理解其思路并尝试改进。
3. 模型构建在本地或 Kaggle Notebook 中进行特征工程和模型训练。经常提交(Submission)以获取即时反馈,但要注意公共排行榜(Public Leaderboard)可能会过拟合。
4. 最终提交在竞赛结束前选择2 22个最佳的提交作为最终得分。最终得分由私有排行榜(Private Leaderboard)决定,与公共榜单可能有较大差异。
2. 在 Notebooks 中学习 (推荐)

Kaggle Notebooks 是您学习和练习的最佳场所。

  • 新手起步:从经典的 [Titanic: Machine Learning from Disaster] 或 [House Prices: Advanced Regression Techniques] 等入门级竞赛入手。
  • 筛选优质内容:在 Notebooks 页面,按“Hot”(热门)或“Highest Score”(最高分)筛选,优先学习高赞或高分的代码。
  • 善用 GPU/TPU:Kaggle Notebooks 提供免费的 GPU/TPU 资源,可以用来训练大型模型(如深度学习),但要注意使用时长限制。

三、Kaggle 使用的五大注意事项

序号注意点详细说明
1作弊与团队协作禁止在同一竞赛中拥有多个账号。如果参加团队赛,必须遵守团队成员人数限制和代码分享规则。
2关注 Private LB不要过度信任 Public Leaderboard。许多参赛者为了冲高公共榜单分数而牺牲泛化能力。最终决定您奖金和排名的都是 Private Leaderboard。
3数据泄露 (Leakage)严格区分训练数据测试数据。任何在模型训练阶段使用了测试集信息的行为都可能导致数据泄露,从而得到虚高的分数。
4外部数据使用必须严格遵守竞赛规则中关于外部数据的规定。有些竞赛允许使用,有些则禁止。如果允许,必须在论坛中声明使用的外部数据源。
5资源限制注意 Notebooks 的运行时长限制(通常12 1212小时)、GPU/TPU 配额(通常每周有限额)以及文件输出大小限制。

Day 21 复习回顾:降维算法

在您复习第21 2121天的降维算法时,请重点回顾PCAt-SNE的核心区别和适用场景。

  • PCA (主成分分析):线性降维,追求最大方差,适用于全局结构保留和特征工程
  • t-SNE (t-分布随机邻域嵌入):非线性降维,追求局部相似性,适用于数据可视化和发现聚类结构
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 0:41:51

R Shiny多源输入控制完全手册,彻底解决图表刷新不同步问题

第一章:R Shiny多源输入控制的核心挑战在构建交互式数据应用时,R Shiny常需整合来自多种输入控件的数据源,如滑块、下拉菜单、文件上传和文本输入等。这些多源输入的同步与状态管理构成了开发中的核心挑战,尤其当多个输入之间存在…

作者头像 李华
网站建设 2026/5/9 2:51:33

关于第二次考核后的总结反思

BFC的描述 这个是考核中写的显而易见,没有写全,触发方式有些记混了 触发方式 根元素浮动元素绝对定位或固定定位元素行内块元素表格单元格表格标题弹性盒模型元素设置 overflow 属性值不为 visible 实现六芒星效果 考核中只实现了三角形,不知道等边三角形怎么实现我将数值做了些…

作者头像 李华
网站建设 2026/5/9 2:43:18

视觉回归测试工具全面指南:概念、工具与实践

视觉回归测试(Visual Regression Testing)是现代软件测试中不可或缺的一环,特别是对于Web应用程序和移动应用的前端开发团队。本文将全面介绍视觉回归测试的概念、常用工具、最佳实践以及应用场景,帮助软件测试从业者掌握这一关键技术。 视觉回归测试概…

作者头像 李华
网站建设 2026/5/9 1:31:21

UDP 协议详解与 Qt 实战应用

引言: https://github.com/0voice UDP(User Datagram Protocol,用户数据报协议)是 TCP/IP 协议簇中传输层的核心协议之一,与 TCP 协议共同承担着端到端的数据传输任务。相较于 TCP 的面向连接、可靠传输特性&#xf…

作者头像 李华
网站建设 2026/5/9 2:00:05

为什么你的MAUI应用上线就崩溃?99%开发者忽略的测试盲区曝光

第一章:为什么你的MAUI应用上线就崩溃?99%开发者忽略的测试盲区曝光 在.NET MAUI开发中,许多开发者发现应用在本地调试时运行正常,但一旦发布到生产环境便频繁崩溃。问题根源往往隐藏在被忽视的测试盲区中——尤其是平台特定行为、…

作者头像 李华