news 2026/6/9 1:23:04

【开题答辩全过程】以 基于Python的豆瓣图书聚类分析为例,包含答辩的问题和答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【开题答辩全过程】以 基于Python的豆瓣图书聚类分析为例,包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人,语言擅长Javaphp、微信小程序、PythonGolang、安卓Android

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持!

答辩学生:各位老师好,我的课题是“基于Python的豆瓣图书聚类分析系统”。系统采用B/S架构,管理员可一键爬取豆瓣图书数据、做K-means聚类、生成Echarts可视化大屏;用户可按书名查询、查看聚类结果并导出Excel。后端用Python3.7+Django+Scrapy,大数据部分用Hadoop MapReduce,数据库用MySQL,前端用Vue.js,开发工具是PyCharm和Navicat。


评委老师:为什么选“豆瓣图书”做数据源?
答辩学生:豆瓣图书页面结构规范、字段完整,评分、评论数等区间标度变量丰富,方便做聚类,而且不用登录就能爬,技术门槛低。


评委老师:系统到底能给普通读者带来什么实际好处?
答辩学生:读者输入一本喜欢的书,系统会把同类书聚成一类,相当于免费“猜你喜欢”,减少挑书时间。


评委老师:用K-means算法需要提前指定聚类个数k,你准备怎么选?
答辩学生:先用“手肘法”画SSE曲线,找到拐点当k值,如果拐点不明显就再让管理员多试几个k,看哪组结果更容易解释。


评委老师:爬取数据量大时,如何避免被豆瓣封IP?
答辩学生:在Scrapy里加下载延迟、随机User-Agent、用IP代理池,控制每天总量不超过5000条,同时尊重robots协议。


评委老师:Hadoop在本项目里具体做什么?
答辩学生:当图书超过20万条时,用MapReduce并行计算每个标签的平均评分、评论数,加快统计速度,不然单机跑得太慢。


评委老师:可视化大屏主要展示哪些图?
答辩学生:聚类散点图、各簇平均评分柱状图、标签词云、评分分布饼图,四个图一页,管理员截屏就能放论文。


评委老师:如果某本书信息缺失评分,你怎么处理?
答辩学生:先补零会拉低均值,所以我用同标签下的平均分填补,如果同标签也不够,就直接删掉这条记录。


评委老师:系统测试打算怎么做?
答辩学生:分两步:功能测试用黑盒,管理员爬50条数据跑通聚类;性能测试用JMeter模拟100个用户同时查书,看页面能否在3秒内返回。


评委老师:进度安排里,哪一周最可能延期?
答辩学生:第6-8周做可视化,如果Echarts图表调样式卡壳,可能拖一周,我提前把代码模板找好,尽量不掉链子。


评委老师评价:xx同学选题贴近生活,技术路线清晰,能意识到数据缺失、性能等实际问题并给出简单可行对策,符合本科毕业设计难度。下一步按计划推进,注意及时备份数据和代码,预祝你顺利完成。


以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题定功能和建议

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 19:57:24

GAN Lab终极指南:可视化深度学习实验平台

GAN Lab终极指南:可视化深度学习实验平台 【免费下载链接】ganlab GAN Lab: An Interactive, Visual Experimentation Tool for Generative Adversarial Networks 项目地址: https://gitcode.com/gh_mirrors/ga/ganlab GAN Lab是一个革命性的交互式可视化工具…

作者头像 李华
网站建设 2026/6/9 19:55:36

20万以内紧凑型SUV推荐:省心省钱的理想选择

对于平时主要用于上下班通勤的用户来说,一款省心省钱的20万以内紧凑型SUV至关重要。在如今的汽车市场,,通常会关注安全性、空间、油耗和智能配置等核心要素。尤其是在20万元以内的预算范围内,许多用户希望兼具日常通勤便利性、偶尔…

作者头像 李华
网站建设 2026/6/9 18:40:20

数据分析快速上手:从零开始掌握Power BI核心技能

数据分析快速上手:从零开始掌握Power BI核心技能 【免费下载链接】PowerBI官方中文教程完整版分享 Power BI 官方中文教程完整版欢迎使用Power BI官方中文教程完整版!本教程专为寻求深入理解Microsoft Power BI的企业智能和数据分析爱好者设计 项目地址…

作者头像 李华
网站建设 2026/6/9 13:44:11

Windows系统下proteus8.17下载及安装超详细版

手把手教你搞定 Proteus 8.17 安装:从下载到仿真实战全流程最近有好几个学生问我:“老师,我在网上搜了好久的Proteus 8.17 下载及安装教程,怎么不是链接失效就是装完打不开?”说实话,我也理解他们的困扰。现…

作者头像 李华
网站建设 2026/6/5 19:42:54

前端自适应页面,零基础入门到精通,收藏这篇就够了

项目开发中经常遇见需要自适应页面的办法,下面总结几种经常用到的,欢迎补充~ 1. 百分比 百分比是一种非常常见的方式,尤其在页面元素宽度的设定上 2. css布局 css中flex、grid属性经常用来自适应页面,设置display为…

作者头像 李华
网站建设 2026/6/9 19:48:34

使用git diff查看TensorFlow代码变更细节

使用 git diff 深入分析 TensorFlow 代码变更:从开发调试到镜像构建的实践路径 在现代 AI 工程实践中,一个看似微小的代码修改可能引发模型行为的巨大偏差。比如某次升级后,训练精度突然下降 3%;又或者在不同机器上运行同一脚本&a…

作者头像 李华