news 2026/4/4 6:32:37

<span class=“js_title_inner“>线上事故:为什么用户输入 `Abc` 却登录了 `abc` 的账号?</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>线上事故:为什么用户输入 `Abc` 却登录了 `abc` 的账号?</span>
关注我们,设为星标,每天7:30不见不散,每日java干货分享

案发场景:
你的团队开发了一个短链接系统(Short URL)。
核心逻辑是生成 6 位随机字符作为 ID,区分大小写(Base62 编码),以扩大 ID 容量。
灵异事件:

  • • 用户 A 生成了短链s.cn/AbCdEf,跳转到 Google。

  • • 用户 B 生成了短链s.cn/abcdef,跳转到 Baidu。

  • 结果:当用户访问s.cn/abcdef时,数据库竟然返回了用户 A 的 Google 链接!

原因:
MySQL 的默认字符集校对规则(Collation)通常是utf8mb4_general_ciutf8mb4_0900_ai_ci
注意后缀_ci(Case Insensitive)—— 意思是大小写不敏感。在 MySQL 眼里,'A' = 'a'是天经地义的真理。


1. 核心原理:从字符到字节

在默认的_ci校对规则下,MySQL 会将字符“归一化”后再比较。
而在BINARY操作符的作用下,MySQL 会强制将字符串转换为二进制字节流,然后进行逐字节比对。

  • 普通比较 (=):'A''a'被视为同一个东西。

  • BINARY 比较:'A'(Hex: 41) 和'a'(Hex: 61) 是完全不同的字节序列。


2. 实战演练:一字之差,谬以千里

场景一:短链接 / 邀请码 (Case Sensitive Codes)

这是最典型的场景。邀请码MyCodemycode必须代表两个不同的人。

Bug 写法:

SELECT * FROM invite_codes WHERE code = 'MyCode'; -- 结果:可能把 'mycode', 'MYCODE' 都查出来了

修正写法 (加照妖镜):

SELECT * FROM invite_codes WHERE BINARY code = 'MyCode'; -- 结果:只有 'MyCode' 能匹配,'mycode' 滚粗
场景二:API Key / Token 校验

背景:你分发给客户的AppSecret通常是一串乱码,比如k8Yt9z
风险:如果不加区分,黑客如果猜到了K8YT9Z,在默认配置下竟然也能通过校验!这大大降低了暴力破解的难度。

修正写法:

SELECT * FROM api_secrets WHERE app_id = 1001 AND BINARY secret_key = 'k8Yt9z';
场景三:数据清洗与去重 (Data Cleaning)

背景:历史遗留数据里,因为早期的 Bug,导致数据库里同时存在了Useruser两个标签。现在要合并去重。
如果你直接GROUP BY tag_name,MySQL 会把它们合成一组。

需求:必须把大小写不同的标签区分开统计。

-- 强制按二进制分组 SELECT tag_name, COUNT(*) FROM tags GROUP BY BINARY tag_name;
场景四:隐形字符的“显形” (Trailing Spaces)

冷知识:在某些 MySQL 版本和校对规则下,'a''a '(末尾有空格) 在比较时是相等的(PAD SPACE 行为)。
但加上BINARY后,空格的字节0x20无处遁形。

SELECT 'a' = 'a '; -- 可能返回 1 (True) SELECT BINARY 'a' = 'a '; -- 必定返回 0 (False)

3. 进阶:永久解决方案 (Collation)

BINARY操作符只是临时的“照妖镜”(Ad-hoc 查询)。
如果你的某个字段(如invite_code天生就必须区分大小写,那么在建表时就应该定好规矩,而不是每次查询都加BINARY

最佳实践:使用_bin后缀的校对规则。

CREATE TABLE invite_codes ( id INT PRIMARY KEY, -- 指定 collation 为 utf8mb4_bin (Binary) code VARCHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin, UNIQUE KEY idx_code (code) );

效果:

  1. 1.自动区分:以后查询WHERE code = '...'自动区分大小写,不需要加BINARY关键字。

  2. 2.唯一性约束生效:你可以同时插入abcABC,数据库认为是两条不同的记录,不会报 Duplicate Key。


4. 避坑指南:索引失效危机

这是使用BINARY操作符最大的代价。

问题:
如果你的列code是默认的_ci校对规则,并且建了索引。
当你执行WHERE BINARY code = '...'时,索引可能会失效

原因:
索引树是按照“不区分大小写”的逻辑排序构建的。当你要求“区分大小写”时,MySQL 可能认为原本的索引树没法用了,只能全表扫描来逐个比对字节。

解决:
如果你需要高性能的精确匹配,请务必采用“进阶方案”,直接修改列的 Collation 为_bin,并重建索引。


5. 总结

BINARY 操作符是 MySQL 给开发者留的一个“严谨模式”开关。

  • 什么时候用?当业务逻辑依赖字符的精确匹配(邀请码、Token、密码散列值)时。

  • 注意什么?别滥用,小心索引失效。长治久安之策是修改 Table Collation。

推荐阅读 点击标题可跳转

50个Java代码示例:全面掌握Lambda表达式与Stream API

16 个 Java 代码“痛点”大改造:“一般写法” VS “高级写法”终极对决,看完代码质量飙升!

为什么高级 Java 开发工程师喜爱用策略模式

精选Java代码片段:覆盖10个常见编程场景的更优写法

提升Java代码可靠性:5个异常处理最佳实践

为什么大佬的代码中几乎看不到 if-else,因为他们都用这个...

还在 Service 里疯狂注入其他 Service?你早就该用 Spring 的事件机制了

看完本文有收获?请转发分享给更多人

关注「java干货」加星标,提升java技能

❤️给个「推荐 」,是最大的支持❤️

.cls-1{fill:#001e36;}.cls-2{fill:#31a8ff;}

.cls-1{fill:#001e36;}.cls-2{fill:#31a8ff;}

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 22:00:05

从此告别拖延,AI论文写作软件千笔·专业论文写作工具 VS 万方智搜AI

随着人工智能技术的迅猛发展,AI辅助写作工具已逐渐成为高校学生完成毕业论文的重要帮手。越来越多的专科生开始借助这些智能工具来提升写作效率、优化论文结构,甚至在文献检索与格式规范方面也获得专业支持。然而,面对市场上种类繁多、功能各…

作者头像 李华
网站建设 2026/3/30 12:22:48

MAC物理地址和IP网络地址有什么区别?

目录 一、什么是MAC地址二、什么是IP地址三、如何隐藏真实的MAC地址四、如何隐藏真实的IP地址 一、什么是MAC地址 MAC地址,全称为媒体访问控制地址(Media Access Control Address),是一种用于网络通信的唯一标识符。它是由IEEE 8…

作者头像 李华
网站建设 2026/3/14 3:23:27

Embedding模型深度解析:从词向量到语义空间的完整指南

本文深入剖析Embedding(嵌入)模型的核心原理,从最基础的词向量概念出发,详细讲解向量空间中的语义关系、相似度计算、训练方法,以及在搜索、推荐、RAG等场景中的实际应用。 一、什么是Embedding? 1.1 从One-Hot到Embedding 问题:计算机如何理解"猫"和"…

作者头像 李华
网站建设 2026/3/14 11:17:07

Substance P (2-11) (Deca-Substance P) ;PKPQPFFGLM-NH₂

一、基础信息 英文名称:Substance P (2-11) (Deca-Substance P)三字母序列:Pro-Lys-Pro-Gln-Gln-Phe-Phe-Gly-Leu-Met-NH₂单字母序列:PKPQPFFGLM-NH₂精确分子量:1191.46 Da等电点(pI):6.0~6.…

作者头像 李华
网站建设 2026/4/2 11:42:14

48 多源动态最优潮流分布式鲁棒优化:应对风光不确定性

48多源动态最优潮流分布式鲁棒优化 关键词:分布式鲁棒优化 风光不确定性 最优潮流 Wasserstein距离 仿真软件:matlabyalmipcplex 参考文档:《多源动态最优潮流的分布鲁棒优化方法》 主要内容:针对大规模清洁能源接入电网引起的系统…

作者头像 李华