defaultdict是 Python 标准库collections模块中的一个特殊字典类,它为不存在的键提供默认值,避免KeyError异常。
基本概念
普通字典的问题
# 普通字典访问不存在的键会报错 d = {} # print(d['不存在的键']) # KeyError! # 需要先检查键是否存在 if '键' not in d: d['键'] = [] d['键'].append('值')defaultdict的解决方案
from collections import defaultdict # 创建 defaultdict,指定默认工厂函数 d = defaultdict(list) # 默认值为空列表 d['水果'].append('苹果') # 自动创建列表并添加主要特性
1.指定默认值类型
from collections import defaultdict # 整数类型,默认值为 0 计数器 = defaultdict(int) 计数器['苹果'] += 1 计数器['香蕉'] += 2 # 结果: {'苹果': 1, '香蕉': 2} # 列表类型,默认值为 [] 分组 = defaultdict(list) 分组['水果'].append('苹果') 分组['水果'].append('香蕉') # 结果: {'水果': ['苹果', '香蕉']} # 集合类型,默认值为 set() 标签 = defaultdict(set) 标签['文章1'].add('Python') 标签['文章1'].add('编程') # 结果: {'文章1': {'Python', '编程'}} # 字典类型,默认值为 {} 配置 = defaultdict(dict) 配置['用户']['姓名'] = '张三' 配置['用户']['年龄'] = 252.使用 lambda 自定义默认值
from collections defaultdict # 默认值为 100 d = defaultdict(lambda: 100) print(d['分数']) # 输出: 100 # 默认值为 "未知" d = defaultdict(lambda: "未知") print(d['姓名']) # 输出: "未知" # 复杂默认值 d = defaultdict(lambda: {"计数": 0, "总分": 0}) d['学生1']['计数'] += 1实用示例
示例1:统计单词频率
from collections import defaultdict 文本 = "苹果 香蕉 苹果 橙子 香蕉 苹果 苹果" 单词列表 = 文本.split() 词频 = defaultdict(int) for 单词 in 单词列表: 词频[单词] += 1 print(词频) # {'苹果': 4, '香蕉': 2, '橙子': 1}示例2:按类别分组
from collections import defaultdict 商品列表 = [ ('水果', '苹果'), ('水果', '香蕉'), ('蔬菜', '胡萝卜'), ('水果', '橙子'), ('蔬菜', '西兰花') ] 分类库 = defaultdict(list) for 类别, 商品 in 商品列表: 分类库[类别].append(商品) """ 结果: { '水果': ['苹果', '香蕉', '橙子'], '蔬菜': ['胡萝卜', '西兰花'] } """示例3:创建树形结构
from collections import defaultdict def 树(): return defaultdict(树) 文件系统 = 树() 文件系统['home']['user']['docs']['file.txt'] = "内容" 文件系统['home']['user']['pictures']['photo.jpg'] = "图片" # 访问不存在的路径会自动创建 路径 = 文件系统['var']['log']['apache']['access.log']示例4:统计学生成绩
from collections import defaultdict 成绩表 = [ ('张三', '数学', 90), ('张三', '英语', 85), ('李四', '数学', 95), ('李四', '英语', 88), ('张三', '物理', 92) ] # 按学生分组成绩 学生成绩 = defaultdict(list) for 姓名, 科目, 分数 in 成绩表: 学生成绩[姓名].append((科目, 分数)) # 计算每个学生的平均分 平均分 = defaultdict(float) for 姓名, 成绩列表 in 学生成绩.items(): 总分 = sum(分数 for _, 分数 in 成绩列表) 平均分[姓名] = 总分 / len(成绩列表)与普通字典的对比
特性 | 普通 |
|
|---|---|---|
访问不存在的键 | 抛出 | 返回默认值 |
初始化复杂度 | 需要手动初始化 | 自动初始化 |
代码简洁性 | 需要条件判断 | 代码更简洁 |
内存使用 | 相同 | 相同 |
性能 | 相似 | 相似,但减少条件判断 |
使用场景
适合使用defaultdict的场景:
计数器:统计频率、计数
分组操作:将数据按某个键分组
构建嵌套结构:树形结构、图结构
避免重复的条件检查:减少
if key in dict的代码配置管理:多层级的配置项
示例:构建邻接表(图结构)
from collections import defaultdict # 图的邻接表表示 图 = defaultdict(list) 边 = [('A', 'B'), ('A', 'C'), ('B', 'D'), ('C', 'D')] for 起点, 终点 in 边: 图[起点].append(终点) # 如果是无向图 图[终点].append(起点)注意事项
工厂函数是调用的:
defaultdict(int)中的int是构造函数,不是值默认值占用内存:即使不存在的键也会返回默认值,可能占用额外内存
判断键是否存在:使用
in操作符时,不存在的键不会自动添加转换为普通字典:
d = defaultdict(int, {'a': 1, 'b': 2}) 普通字典 = dict(d) # 转换为普通字典复制问题:
d1 = defaultdict(list, {'a': [1, 2]}) d2 = d1.copy() # 浅拷贝,列表是共享的 d2['a'].append(3) print(d1['a']) # [1, 2, 3]