news 2026/6/9 12:11:29

Python音乐推荐系统:Django+基于用户协同过滤(余弦相似度算法)源码

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python音乐推荐系统:Django+基于用户协同过滤(余弦相似度算法)源码

python音乐推荐系统 音乐推荐系统源码 技术栈:python+django+基于用户协同过滤,应用余弦相似度 推荐思路:用户登陆系统后,听歌时会记录听歌次数,听歌的次数可以代表用户对歌曲的喜好度,一次一分,最高10分,有了记录后再应用余弦公司计算用户相似度,得到相似度矩阵,在通过相似度矩阵*用户评分矩阵得到推荐分数矩阵,按分数高低排序推荐

打开音乐App时总能看到那些"猜你喜欢"的歌单,有些推荐准得让人怀疑手机被监听了。今天咱们自己动手撸个推荐系统,用Python+Django实现基于用户的协同过滤算法,看看这背后的魔法是怎么变出来的。

先看核心数据模型设计。在models.py里咱们得记录三样东西:用户、歌曲、用户行为。代码比文字更直观:

from django.db import models class User(models.Model): username = models.CharField(max_length=50, unique=True) class Song(models.Model): title = models.CharField(max_length=200) artist = models.CharField(max_length=100) # 音频文件路径等字段... class UserPlayHistory(models.Model): user = models.ForeignKey(User, on_delete=models.CASCADE) song = models.ForeignKey(Song, on_delete=models.CASCADE) play_count = models.IntegerField(default=0) # 用Decimal类型存评分更精确 score = models.DecimalField(max_digits=3, decimal_places=1, default=0.0) class Meta: unique_together = ('user', 'song') # 防止重复记录

用户每次播放歌曲时,咱们得更新这个评分系统。注意这里有个小技巧:播放次数转评分时做了0-10分的限制,防止数据偏差过大。看看视图层怎么处理:

def record_play(request, song_id): user = request.user song = Song.objects.get(id=song_id) history, created = UserPlayHistory.objects.get_or_create( user=user, song=song ) # 播放次数+1,但不超过10次 history.play_count = min(history.play_count + 1, 10) # 直接按播放次数作为评分 history.score = history.play_count history.save() return JsonResponse({'status': 'success'})

接下来是重头戏——相似度计算。咱们用余弦相似度来衡量用户口味有多接近。别被数学名词吓到,本质上就是比较两个用户的评分向量夹角:

from collections import defaultdict from decimal import Decimal import math def cosine_similarity(user1, user2): # 获取共同评分的歌曲 common_songs = set(user1.play_history.values_list('song', flat=True)) & \ set(user2.play_history.values_list('song', flat=True)) if not common_songs: return 0.0 # 计算点积和模长 dot_product = 0 magnitude1 = 0 magnitude2 = 0 for song in common_songs: score1 = UserPlayHistory.objects.get(user=user1, song=song).score score2 = UserPlayHistory.objects.get(user=user2, song=song).score dot_product += float(score1 * score2) magnitude1 += float(score1 ** 2) magnitude2 += float(score2 ** 2) magnitude = math.sqrt(magnitude1) * math.sqrt(magnitude2) return Decimal(dot_product / magnitude) if magnitude else 0.0

这里有个性能优化点:实际生产环境应该批量查询而不是循环内查数据库,但示例代码保持简洁优先。缓存用户评分数据能显著提升速度。

最后是推荐算法本体,这步相当于把相似用户的喜好"借"过来:

def generate_recommendations(user, top_n=10): all_users = User.objects.exclude(id=user.id) similarity_cache = {} # 缓存相似度计算结果 # 构建评分预测字典 recommendations = defaultdict(float) for other_user in all_users: # 相似度超过0.7才考虑 sim = cosine_similarity(user, other_user) if sim < 0.7: continue # 遍历相似用户听过的歌 for history in other_user.play_history.all(): if not user.play_history.filter(song=history.song).exists(): # 加权评分累加 recommendations[history.song] += float(sim * history.score) # 按评分排序取TopN sorted_songs = sorted(recommendations.items(), key=lambda x: x[1], reverse=True)[:top_n] return [song for song, _ in sorted_songs]

在前端展示推荐结果时,用Django模板引擎循环输出即可。注意要排除用户已经听过的歌曲,这个过滤逻辑在模板里可以直接处理:

<div class="recommend-box"> <h3>根据您的口味推荐</h3> <ul> {% for song in recommended_songs %} {% if song not in played_songs %} <li>{{ song.title }} - {{ song.artist }}</li> {% endif %} {% endfor %} </ul> </div>

这个系统在实际使用时会遇到冷启动问题——新用户没数据时怎么推荐?可以准备个热门歌曲榜单作为兜底方案。另一个要注意的是数据稀疏性,当用户量增大时需要考虑降维处理,或者改用矩阵分解等更高效的方法。但作为入门级的协同过滤实现,这个版本已经能展现推荐系统的核心逻辑了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 19:27:58

科研跃迁新引擎:解锁书匠策AI期刊论文写作的「六维智能矩阵」

在学术研究的浩瀚星空中&#xff0c;期刊论文的撰写始终是学者们攀登高峰的必经之路。然而&#xff0c;传统写作模式正面临信息过载、逻辑碎片化、格式规范严苛等现实挑战。书匠策AI科研工具&#xff08;官网&#xff1a;www.shujiangce.com&#xff09;凭借其突破性的「六维智…

作者头像 李华
网站建设 2026/6/4 23:18:59

如何编写单元测试验证TensorFlow镜像中模型逻辑正确性

如何编写单元测试验证TensorFlow镜像中模型逻辑正确性 在现代AI系统开发中&#xff0c;一个看似微小的数值错误或接口不一致&#xff0c;可能在生产环境中引发连锁反应——分类模型突然输出全零&#xff0c;推荐系统返回空结果&#xff0c;甚至整个推理服务因NaN值崩溃。这类问…

作者头像 李华
网站建设 2026/6/9 8:35:24

模型版本控制新思路:Git LFS管理TensorFlow镜像产出物

模型版本控制新思路&#xff1a;Git LFS管理TensorFlow镜像产出物 在一家金融科技公司的AI团队中&#xff0c;数据科学家小李刚完成了一个新的反欺诈模型训练。他兴奋地准备将saved_model/目录提交到Git仓库&#xff0c;却发现一次git push花费了近40分钟&#xff0c;且本地克隆…

作者头像 李华
网站建设 2026/6/9 20:12:01

Open-AutoGLM云端实战部署全记录(阿里云环境配置大揭秘)

第一章&#xff1a;Open-AutoGLM云端部署概述Open-AutoGLM 是一款基于 AutoGLM 架构的开源大语言模型推理引擎&#xff0c;专为高效云端部署与低延迟服务响应设计。其核心优势在于支持动态批处理、多实例并行及自动缩放&#xff0c;适用于高并发场景下的自然语言理解与生成任务…

作者头像 李华
网站建设 2026/6/5 9:31:44

探索汇川 H5U PLC 程序框架:兼具性价比与实用性的自动化利器

汇川H5U PLC程序框架。 需要有威纶通/步科等触摸屏 包含34轴程序样例。 共3套&#xff0c;编程手册等 是比较完整的程序框架. PLC还是性价比挺高&#xff0c;特别是对于伺服的总线。 主打的伺服控制是ETHERCAT总线 程序写的条理分明&#xff0c;清晰易懂&#xff0c;注释清楚&…

作者头像 李华
网站建设 2026/5/27 23:20:05

Open-AutoGLM vs 传统AutoML:6个维度对比,结果令人震惊

第一章&#xff1a;Open-AutoGLM介绍Open-AutoGLM 是一个开源的自动化通用语言模型&#xff08;General Language Model, GLM&#xff09;构建与优化框架&#xff0c;专为研究人员和开发者设计&#xff0c;旨在简化大规模语言模型的训练、微调与部署流程。该框架融合了自动化机…

作者头像 李华