关注我们,设为星标,每天7:30不见不散,每日java干货分享案发场景:
你的团队开发了一个短链接系统(Short URL)。
核心逻辑是生成 6 位随机字符作为 ID,区分大小写(Base62 编码),以扩大 ID 容量。
灵异事件:
• 用户 A 生成了短链
s.cn/AbCdEf,跳转到 Google。• 用户 B 生成了短链
s.cn/abcdef,跳转到 Baidu。•结果:当用户访问
s.cn/abcdef时,数据库竟然返回了用户 A 的 Google 链接!
原因:
MySQL 的默认字符集校对规则(Collation)通常是utf8mb4_general_ci或utf8mb4_0900_ai_ci。
注意后缀_ci(Case Insensitive)—— 意思是大小写不敏感。在 MySQL 眼里,'A' = 'a'是天经地义的真理。
1. 核心原理:从字符到字节
在默认的_ci校对规则下,MySQL 会将字符“归一化”后再比较。
而在BINARY操作符的作用下,MySQL 会强制将字符串转换为二进制字节流,然后进行逐字节比对。
•普通比较 (
=):'A'和'a'被视为同一个东西。•BINARY 比较:
'A'(Hex: 41) 和'a'(Hex: 61) 是完全不同的字节序列。
2. 实战演练:一字之差,谬以千里
场景一:短链接 / 邀请码 (Case Sensitive Codes)
这是最典型的场景。邀请码MyCode和mycode必须代表两个不同的人。
Bug 写法:
SELECT * FROM invite_codes WHERE code = 'MyCode'; -- 结果:可能把 'mycode', 'MYCODE' 都查出来了修正写法 (加照妖镜):
SELECT * FROM invite_codes WHERE BINARY code = 'MyCode'; -- 结果:只有 'MyCode' 能匹配,'mycode' 滚粗场景二:API Key / Token 校验
背景:你分发给客户的AppSecret通常是一串乱码,比如k8Yt9z。
风险:如果不加区分,黑客如果猜到了K8YT9Z,在默认配置下竟然也能通过校验!这大大降低了暴力破解的难度。
修正写法:
SELECT * FROM api_secrets WHERE app_id = 1001 AND BINARY secret_key = 'k8Yt9z';场景三:数据清洗与去重 (Data Cleaning)
背景:历史遗留数据里,因为早期的 Bug,导致数据库里同时存在了User和user两个标签。现在要合并去重。
如果你直接GROUP BY tag_name,MySQL 会把它们合成一组。
需求:必须把大小写不同的标签区分开统计。
-- 强制按二进制分组 SELECT tag_name, COUNT(*) FROM tags GROUP BY BINARY tag_name;场景四:隐形字符的“显形” (Trailing Spaces)
冷知识:在某些 MySQL 版本和校对规则下,'a'和'a '(末尾有空格) 在比较时是相等的(PAD SPACE 行为)。
但加上BINARY后,空格的字节0x20无处遁形。
SELECT 'a' = 'a '; -- 可能返回 1 (True) SELECT BINARY 'a' = 'a '; -- 必定返回 0 (False)3. 进阶:永久解决方案 (Collation)
BINARY操作符只是临时的“照妖镜”(Ad-hoc 查询)。
如果你的某个字段(如invite_code)天生就必须区分大小写,那么在建表时就应该定好规矩,而不是每次查询都加BINARY。
最佳实践:使用_bin后缀的校对规则。
CREATE TABLE invite_codes ( id INT PRIMARY KEY, -- 指定 collation 为 utf8mb4_bin (Binary) code VARCHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin, UNIQUE KEY idx_code (code) );效果:
1.自动区分:以后查询
WHERE code = '...'自动区分大小写,不需要加BINARY关键字。2.唯一性约束生效:你可以同时插入
abc和ABC,数据库认为是两条不同的记录,不会报 Duplicate Key。
4. 避坑指南:索引失效危机
这是使用BINARY操作符最大的代价。
问题:
如果你的列code是默认的_ci校对规则,并且建了索引。
当你执行WHERE BINARY code = '...'时,索引可能会失效!
原因:
索引树是按照“不区分大小写”的逻辑排序构建的。当你要求“区分大小写”时,MySQL 可能认为原本的索引树没法用了,只能全表扫描来逐个比对字节。
解决:
如果你需要高性能的精确匹配,请务必采用“进阶方案”,直接修改列的 Collation 为_bin,并重建索引。
5. 总结
BINARY 操作符是 MySQL 给开发者留的一个“严谨模式”开关。
•什么时候用?当业务逻辑依赖字符的精确匹配(邀请码、Token、密码散列值)时。
•注意什么?别滥用,小心索引失效。长治久安之策是修改 Table Collation。
推荐阅读 点击标题可跳转
50个Java代码示例:全面掌握Lambda表达式与Stream API
16 个 Java 代码“痛点”大改造:“一般写法” VS “高级写法”终极对决,看完代码质量飙升!
为什么高级 Java 开发工程师喜爱用策略模式
精选Java代码片段:覆盖10个常见编程场景的更优写法提升Java代码可靠性:5个异常处理最佳实践
为什么大佬的代码中几乎看不到 if-else,因为他们都用这个...
还在 Service 里疯狂注入其他 Service?你早就该用 Spring 的事件机制了
看完本文有收获?请转发分享给更多人
关注「java干货」加星标,提升java技能
❤️给个「推荐 」,是最大的支持❤️.cls-1{fill:#001e36;}.cls-2{fill:#31a8ff;}
.cls-1{fill:#001e36;}.cls-2{fill:#31a8ff;}