C语言实现hashmap（附带源码）-洪萨配资

一、项目背景详细介绍

哈希表（Hash Table）是计算机科学中最重要的数据结构之一，用于在平均 O(1) 时间内实现插入、删除和查找操作。几乎所有现代语言的字典/映射（Map）都由哈希表或基于树的结构实现。理解哈希表的实现不仅有助于算法与数据结构的学习，而且在工程实践中非常有用：缓存、索引、符号表、并发结构、数据库内存管理等都离不开高效的映射实现。

常见哈希实现有两种主流策略：

开放寻址（open addressing）：数组内进行探查（线性/二次/双哈希）
分离链（separate chaining）：每个桶维护一个链表或其他结构存放冲突元素

本项目选择分离链实现，理由如下：

容易实现且对负载因子容忍度高
删除操作简单，不需要额外标记（如删标志 tombstone）
便于存放任意长度的键（例如字符串）

本项目以教学为主线，目标是实现一个功能完整、代码清晰、注释详细、易于扩展的 HashMap，便于课堂讲解与博客发布。

二、项目需求详细介绍

功能需求（最小集合）

创建与销毁 HashMap：hashmap_create(initial_capacity)、hashmap_free(map, free_value? )
插入/更新(key, value)：hashmap_put(map, const char* key, void* value)
查询：hashmap_get(map, const char* key)返回void*或 NULL
删除：hashmap_remove(map, const char* key)
判断包含：hashmap_contains(map, const char* key)
动态扩容（rehash）：当负载因子超过阈值如 0.75 时自动扩容为二倍并迁移元素
遍历（迭代器/foreach 回调）：hashmap_foreach(map, callback, userdata)
简单的错误处理（内存分配失败返回错误码或 NULL）

非功能需求

键使用 NUL 结尾字符串（内部会拷贝键）
值为void*，调用方负责内存管理（可在free时传入释放函数）
代码应可编译通过-Wall -Wextra
注释应详细，适合教学使用

三、相关技术详细介绍

要实现健壮的 HashMap，需要掌握如下技术点：

哈希函数（Hash Function）
- 散列函数需均匀分布字符串；本实现采用djb2（Dan Bernstein）或xxhash/murmur（但示例用 djb2 简洁清晰）。
冲突解决
- 分离链：每个桶是链表（这里实现单链表或双向链表均可）。
负载因子与扩容
- 维护size / capacity（负载因子），当超过阈值（如 0.75）时扩容到更大质数或 2 倍，随后 rehash（重新映射所有键）。
键存储与比较
- 对字符串键进行strdup以便拥有内存所有权，比较使用strcmp。
内存管理
- 对于删除或销毁，需要释放键与（可选）值。
遍历与回调
- 提供foreach接口接受用户回调便于业务处理。
复杂度与性能权衡
- 链式哈希在负载增大但链条短情况下平均 O(1)。确保扩容策略避免退化。

四、实现思路详细介绍

整体设计分三层：

数据结构层
- hashnode_t: 存放key(char*),value(void*),next指针
- hashmap_t: 存放buckets（hashnode_t**），capacity,size,load_factor_threshold等配置
核心功能实现
- hashmap_put: 计算哈希 -> 桶索引 -> 遍历链表查找是否存在 key -> 若存在更新 value -> 否则插入新节点并检查是否需扩容
- hashmap_get: 计算哈希 -> 遍历桶链表 -> 返回 value 或 NULL
- hashmap_remove: 找到节点 -> 从链表移除 -> 释放 key 与 value（可选）
- resize/rehash: 分配更大桶数组 -> 遍历旧桶并重新插入到新桶 -> 释放旧桶数组
辅助工具函数
- djb2_hash(const char*)
- create_node,free_node
- next_power_of_two（可选）或使用质数表 for capacity
API & 线程安全
- 本实现不内置线程安全（不加锁），如需并发支持可外部同步或在实现中加入互斥锁（pthread_mutex_t）

五、完整实现代码

/************************************************************ * 文件：hashmap.h * 说明：HashMap 公共接口声明（单文件示例中用于分区） ************************************************************/ #ifndef SIMPLE_HASHMAP_H #define SIMPLE_HASHMAP_H #include <stddef.h> /* Opaque map type */ typedef struct hashmap hashmap_t; /* 回调类型：用于遍历时对每个键值执行操作 * 参数: key, value, userdata 返回 0 表示继续，非0 表示停止遍历 */ typedef int (*hashmap_foreach_fn)(const char *key, void *value, void *userdata); /* 创建 HashMap * initial_capacity: 建议的桶数量（最小为 8） * load_factor_threshold: 触发扩容的阈值，通常 0.7~0.9 * 返回: 指向 hashmap_t 的指针，失败返回 NULL */ hashmap_t *hashmap_create(size_t initial_capacity, double load_factor_threshold); /* 释放 HashMap * free_value_cb: 可选回调用于释放 value（如果 value 是 malloc 分配的），如果为 NULL 则不释放 value */ void hashmap_free(hashmap_t *map, void (*free_value_cb)(void *)); /* 插入或更新键值对 * key: NUL 结尾字符串（函数内部会拷贝） * value: 任意指针 * 返回: 0 成功，非0 失败 */ int hashmap_put(hashmap_t *map, const char *key, void *value); /* 获取键的值（只读） * 返回: value 或 NULL（当 key 不存在或 value 本身为 NULL 时无法区分；如需区分可用 contains） */ void *hashmap_get(hashmap_t *map, const char *key); /* 删除键（并可选择释放 value） */ int hashmap_remove(hashmap_t *map, const char *key, void (*free_value_cb)(void *)); /* 是否包含键 */ int hashmap_contains(hashmap_t *map, const char *key); /* 当前键数量 */ size_t hashmap_size(hashmap_t *map); /* 遍历整张表，按任意顺序 * foreach_fn 返回非0 会使遍历提前结束 * userdata 可用于传递额外参数 */ void hashmap_foreach(hashmap_t *map, hashmap_foreach_fn foreach_fn, void *userdata); #endif /* SIMPLE_HASHMAP_H */ /************************************************************ * 文件：hashmap.c * 说明：HashMap 实现（分离链，字符串键，void* 值） ************************************************************/ #include <stdio.h> #include <stdlib.h> #include <string.h> #include <stdint.h> #include "hashmap.h" /* 哈希节点 */ typedef struct hashnode { char *key; /* 拷贝的键字符串 */ void *value; /* 值指针（用户管理其生命周期） */ struct hashnode *next; /* 链表下一个节点 */ } hashnode_t; /* HashMap 主结构 */ struct hashmap { hashnode_t **buckets; /* 桶数组（每项指向链表头） */ size_t capacity; /* 桶数组长度（总桶数） */ size_t size; /* 当前键值对数量 */ double load_factor; /* 扩容阈值，如 0.75 */ }; /* 默认参数 */ #define HASHMAP_MIN_CAPACITY 8 #define HASHMAP_DEFAULT_LOAD_FACTOR 0.75 /* -------------------------- * 哈希函数：djb2 * 返回 uint64_t 以避免在索引时溢出 * -------------------------- */ static uint64_t djb2_hash(const char *str) { uint64_t hash = 5381; unsigned char c; while ((c = (unsigned char)*str++)) { /* hash * 33 + c */ hash = ((hash << 5) + hash) + c; } return hash; } /* -------------------------- * 创建节点 * -------------------------- */ static hashnode_t *hashnode_create(const char *key, void *value) { hashnode_t *n = (hashnode_t *)malloc(sizeof(hashnode_t)); if (!n) return NULL; n->key = strdup(key); if (!n->key) { free(n); return NULL; } n->value = value; n->next = NULL; return n; } /* 释放节点（不释放 value，释放由调用方决定） */ static void hashnode_free(hashnode_t *n, void (*free_value_cb)(void *)) { if (!n) return; if (n->key) free(n->key); if (free_value_cb && n->value) free_value_cb(n->value); free(n); } /* -------------------------- * 内部：根据 capacity 分配 buckets * -------------------------- */ static hashnode_t **alloc_buckets(size_t capacity) { hashnode_t **b = (hashnode_t **)calloc(capacity, sizeof(hashnode_t *)); return b; } /* -------------------------- * 内部：下一个容量（两倍扩容） * -------------------------- */ static size_t next_capacity(size_t current) { size_t n = current ? current * 2 : HASHMAP_MIN_CAPACITY; if (n < HASHMAP_MIN_CAPACITY) n = HASHMAP_MIN_CAPACITY; return n; } /* -------------------------- * 内部：rehash 到新容量 * 返回 0 成功，非0 失败（如内存不足） * -------------------------- */ static int hashmap_rehash(hashmap_t *map, size_t new_capacity) { hashnode_t **new_buckets = alloc_buckets(new_capacity); if (!new_buckets) return -1; /* 迁移所有节点 */ for (size_t i = 0; i < map->capacity; ++i) { hashnode_t *cur = map->buckets[i]; while (cur) { hashnode_t *next = cur->next; uint64_t h = djb2_hash(cur->key); size_t idx = (size_t)(h % new_capacity); /* 插入到新桶头（O(1)） */ cur->next = new_buckets[idx]; new_buckets[idx] = cur; cur = next; } } /* 释放旧桶数组（节点已移动） */ free(map->buckets); map->buckets = new_buckets; map->capacity = new_capacity; return 0; } /* -------------------------- * API 实现 * -------------------------- */ hashmap_t *hashmap_create(size_t initial_capacity, double load_factor_threshold) { if (initial_capacity < HASHMAP_MIN_CAPACITY) initial_capacity = HASHMAP_MIN_CAPACITY; if (load_factor_threshold <= 0.0) load_factor_threshold = HASHMAP_DEFAULT_LOAD_FACTOR; hashmap_t *m = (hashmap_t *)malloc(sizeof(hashmap_t)); if (!m) return NULL; m->capacity = initial_capacity; m->size = 0; m->load_factor = load_factor_threshold; m->buckets = alloc_buckets(m->capacity); if (!m->buckets) { free(m); return NULL; } return m; } void hashmap_free(hashmap_t *map, void (*free_value_cb)(void *)) { if (!map) return; for (size_t i = 0; i < map->capacity; ++i) { hashnode_t *cur = map->buckets[i]; while (cur) { hashnode_t *next = cur->next; hashnode_free(cur, free_value_cb); cur = next; } } free(map->buckets); free(map); } int hashmap_put(hashmap_t *map, const char *key, void *value) { if (!map || !key) return -1; /* 扩容检查 */ double load = (double)(map->size + 1) / (double)map->capacity; if (load > map->load_factor) { size_t new_cap = next_capacity(map->capacity); if (hashmap_rehash(map, new_cap) != 0) { return -1; /* 内存错误 */ } } uint64_t h = djb2_hash(key); size_t idx = (size_t)(h % map->capacity); hashnode_t *cur = map->buckets[idx]; while (cur) { if (strcmp(cur->key, key) == 0) { /* 已存在：更新值（不释放旧值） */ cur->value = value; return 0; } cur = cur->next; } /* 插入新节点到桶头 */ hashnode_t *n = hashnode_create(key, value); if (!n) return -1; n->next = map->buckets[idx]; map->buckets[idx] = n; map->size++; return 0; } void *hashmap_get(hashmap_t *map, const char *key) { if (!map || !key) return NULL; uint64_t h = djb2_hash(key); size_t idx = (size_t)(h % map->capacity); hashnode_t *cur = map->buckets[idx]; while (cur) { if (strcmp(cur->key, key) == 0) return cur->value; cur = cur->next; } return NULL; } int hashmap_remove(hashmap_t *map, const char *key, void (*free_value_cb)(void *)) { if (!map || !key) return -1; uint64_t h = djb2_hash(key); size_t idx = (size_t)(h % map->capacity); hashnode_t *cur = map->buckets[idx]; hashnode_t *prev = NULL; while (cur) { if (strcmp(cur->key, key) == 0) { /* 找到，移除 */ if (prev) prev->next = cur->next; else map->buckets[idx] = cur->next; hashnode_free(cur, free_value_cb); map->size--; return 0; } prev = cur; cur = cur->next; } return -1; /* 未找到 */ } int hashmap_contains(hashmap_t *map, const char *key) { return hashmap_get(map, key) != NULL; } size_t hashmap_size(hashmap_t *map) { if (!map) return 0; return map->size; } void hashmap_foreach(hashmap_t *map, hashmap_foreach_fn foreach_fn, void *userdata) { if (!map || !foreach_fn) return; for (size_t i = 0; i < map->capacity; ++i) { hashnode_t *cur = map->buckets[i]; while (cur) { int stop = foreach_fn(cur->key, cur->value, userdata); if (stop) return; cur = cur->next; } } } /************************************************************ * 文件：example_main.c * 说明：使用示例（演示基本用法） ************************************************************/ #include <stdio.h> #include <stdlib.h> #include "hashmap.h" /* 用于 foreach 的回调示例 */ static int print_kv(const char *key, void *value, void *userdata) { (void)userdata; printf("key=%s -> value=%s\n", key, (char *)value); return 0; /* 0 继续 */ } int main(void) { hashmap_t *map = hashmap_create(16, 0.75); if (!map) { fprintf(stderr, "创建 hashmap 失败\n"); return 1; } hashmap_put(map, "apple", "red"); hashmap_put(map, "banana", "yellow"); hashmap_put(map, "pear", "green"); hashmap_put(map, "orange", "orange"); printf("size = %zu\n", hashmap_size(map)); printf("get(pear) = %s\n", (char *)hashmap_get(map, "pear")); hashmap_foreach(map, print_kv, NULL); hashmap_remove(map, "banana", NULL); printf("after remove banana, size=%zu\n", hashmap_size(map)); hashmap_free(map, NULL); return 0; }

六、代码详细解读

`djb2_hash(const char *str)`

作用：将字符串键映射为 64 位无符号整数哈希值。
设计理由：djb2 简洁且对字符串有良好分布，适合教学与通用场景。若对抗攻击或更高性能有需求，可替换为 MurmurHash/xxHash。
注意：返回 64 位，后续模运算到桶索引以减少冲突。

`hashnode_create(const char key, void value)`/`hashnode_free`

作用：创建与释放链表节点，创建时会strdup键以确保 Map 拥有键的生命周期。释放时只释放 key；value 是否释放取决于调用者传入的回调函数。
注意：strdup可能失败（内存不足），上层应检测并处理。

`alloc_buckets(size_t)`、`next_capacity(size_t)`

作用：辅助分配桶数组与计算下一步扩容容量。
设计：采用两倍扩容避免频繁 rehash；初始容量至少为HASHMAP_MIN_CAPACITY。

`hashmap_rehash(hashmap_t *map, size_t new_capacity)`

作用：当负载因子超出阈值时分配新桶并将旧节点迁移（重新计算索引并插入新桶）。
注意：迁移过程中直接把旧节点移到新桶（不重新分配节点），因为键的字符串已分配；这样避免大量内存开销。若 rehash 失败（例如内存不足），要保持原表不变并返回错误。

`hashmap_create(...)`/`hashmap_free(...)`

作用：创建 HashMap 并分配桶数组，free 则释放全部节点与桶。hashmap_free接受free_value_cb用于释放存在 map 中的值（如值为 malloc 分配的结构）。

`hashmap_put(...)`

作用：插入或更新键值对；先检查是否需要扩容（通过map->size+1 / capacity > load_factor），若是则 rehash；然后到对应桶遍历查找相同键，若存在更新 value（不释放旧 value），否则创建新节点并插入到桶头。
注意：更新不会自动释放旧 value，因此如果需要自动替换并释放旧值，可在上层逻辑实现或扩展 API。

`hashmap_get(...)`

作用：查找键并返回对应 value（或 NULL）。
注意：无法区分“key 不存在”与“value 为 NULL”这两种情况；若需要区分可提供带输出参数的int hashmap_get(map, key, void **out_value)。

`hashmap_remove(...)`

作用：按 key 删除节点，从链表断开并释放节点（并使用free_value_cb释放值）。更新size。返回 0 表示删除成功，-1 表示未找到或错误。
注意：删除操作维护链表的 prev/next 链接，避免内存泄漏。

`hashmap_contains(...)`/`hashmap_size(...)`

作用：分别判断是否包含键和返回表中键数量，简单包装接口。

`hashmap_foreach(...)`

作用：遍历所有 buckets 与节点，按任意顺序对每个键值调用用户回调，回调返回非0 表示终止遍历。适用于导出信息与批处理。
注意：遍历过程中不要修改 map（例如删除当前节点），否则可能破坏迭代；如需支持在遍历中修改，请自行设计安全遍历策略（例如复制键列表后遍历）。

七、项目详细总结

本项目以分离链为基础完整实现了一个通用、教学友好的 HashMap，具备以下特点：

支持任意字符串键与void*值
自动扩容（默认负载因子 0.75），避免退化
键会被内部strdup，从而确保键生命周期安全
值的释放由调用者传入回调决定，提供灵活性
提供遍历 API 方便批量处理
设计清晰、易于替换哈希函数或链表实现（可替换为红黑树以保证最坏情况）

此实现适合教学、原型开发与小型工程。要在生产环境使用请考虑以下增强项：并发控制（锁或分段锁）、更强健的哈希函数、内存池/对象池、按需 shrink、负载因子与容量策略优化、应对哈希洪泛（Dos）攻击的防护等。

八、项目常见问题及解答

Q1：为什么要复制键（strdup）而不是保存指针？
复制键确保调用者可以安全释放原字符串而不影响 Map 的稳定性，避免悬挂指针和复杂所有权约定。

Q2：如何区分get返回 NULL 是“键不存在”还是“值为 NULL”？
可以改进 API：int hashmap_get(map, key, void **out_value)返回 0/1 表示是否存在，out_value返回值。当前实现为了简洁未提供此语义。

Q3：如何支持并发访问？
可加入全表锁（简单但粗糙），或分段锁（锁分桶组）以提高并发度。另一个方案是使用无锁结构（复杂）。

Q4：扩容会不会非常耗时？
扩容（rehash）需要遍历所有节点并重新分配到新桶，这一步是 O(n)。通过选择合适的扩容因子与预留空间可以减少扩容次数。对于频繁插入的大批量数据，建议预先create时指定较大初始容量。

Q5：如何处理恶意构造的键导致大量哈希冲突？
采用更健壮的哈希函数（例如 SipHash、MurmurHash 或 xxHash），并在检测到链条过长时触发特殊处理（例如切换到树结构）可以缓解。

九、扩展方向与性能优化

以下为可选提升与扩展路线，供后续开发使用：

并发安全版本：使用分段锁或每个桶独立锁以实现高并发；或使用读写锁优化读取频繁场景。
替换哈希函数：将djb2替换为更现代与更快的xxHash/MurmurHash，或使用 SipHash 防止哈希 DoS。
开链改为树：当单个桶链条长度过长时把链表转换为平衡树（类似 Java 的 HashMap 优化），保证最坏情况 O(log n)。
内存池/对象池：用内存池管理hashnode_t与 key 缓存，减少malloc/free开销。
批量插入优化：提供批量插入接口避免频繁扩容（一次性预估容量）。
持久化与序列化：支持将 HashMap 序列化到文件并恢复（适合缓存持久化）。
弱引用与自动回收：在高级场景可实现值的弱引用或 TTL（过期时间）自动回收策略。

C语言实现hashmap（附带源码）

一、项目背景详细介绍