Polyvore时尚搭配数据集完整使用指南
【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset
Polyvore数据集是时尚推荐系统研究领域的重要资源,源自论文《Learning Fashion Compatibility with Bidirectional LSTMs》。该数据集包含来自Polyvore.com网站的21,889个完整时尚搭配,为研究者提供了丰富的服装组合数据,助力时尚兼容性分析和智能推荐算法开发。
数据集核心价值与应用场景
Polyvore数据集在时尚AI研究中具有不可替代的价值:
- 时尚兼容性建模:学习服装单品之间的搭配规律
- 智能推荐系统:构建个性化的时尚搭配推荐引擎
- 深度学习研究:为双向LSTM等神经网络模型提供训练数据
- 跨模态理解:结合文本描述与视觉特征的时尚理解
数据集文件结构详解
核心数据文件
polyvore.tar.gz- 完整数据集压缩包,包含原始图像数据train_no_dup.json- 17,316个训练集搭配valid_no_dup.json- 1,497个验证集搭配
test_no_dup.json- 3,076个测试集搭配
辅助配置文件
category_id.txt- 类别ID与名称映射文件fill_in_blank_test.json- 填空式时尚推荐任务测试集fashion_compatibility_prediction.txt- 时尚兼容性预测数据集
数据预处理与解压步骤
解压数据集文件
首先需要解压核心数据文件:
tar -xzf polyvore.tar.gz数据结构解析
每个JSON项目包含完整的搭配信息:
{ "name": "搭配名称", "views": "浏览次数", "items": [ { "index": "单品在搭配中的索引", "name": "单品描述", "price": "价格信息", "likes": "点赞数量", "image": "图像URL", "categoryid": "类别ID" } ], "set_url": "搭配页面链接", "set_id": "搭配唯一标识" }实际应用案例
时尚兼容性预测
数据集包含约7,000个搭配用于兼容性预测任务,其中4,000个为不兼容搭配,3,000个为兼容搭配。每行数据格式如下:
1 单品1 单品2 单品3其中首数字表示兼容性(1为兼容,0为不兼容),后面跟随构成搭配的时尚单品序列。
填空式推荐任务
fill_in_blank_test.json文件包含填空式时尚推荐任务的测试问题,格式如下:
{ "question": "构成问题的时尚单品序列", "answers": "可供选择的选项集合", "blank_position": "需要填充的空白位置"数据处理技巧与最佳实践
数据清洗要点
- 删除包含非时尚类别ID的单品(如背景、文字、装饰等)
- 对于包含过多单品的搭配,仅保留前8个单品
- 处理单品索引不连续的情况
类别映射使用
通过category_id.txt文件可以获取类别ID与具体类别名称的对应关系,这对于理解单品属性和构建特征工程至关重要。
注意事项与使用限制
数据时效性:数据集抓取于2017年2月19日,部分搭配可能已过时
图像可用性:原始图像URL已失效,需要通过Kaggle等平台获取替代图像资源
研究伦理:在使用数据进行商业应用时,需考虑版权和隐私问题
扩展资源与相关研究
除了本数据集外,Polyvore.com还衍生出多个相关数据集,包括《The Elements of Fashion Style》、《Mining Fashion Outfit Composition》等,研究者可根据具体需求选择合适的数据资源。
Polyvore数据集为时尚AI研究提供了宝贵的数据基础,通过合理的数据处理和算法设计,研究者可以开发出更加智能的时尚推荐系统,推动个性化时尚服务的发展。
【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考