上一期讲到了捕获组,它尽职尽责地找到我们关心的文本模式,并将其分门别类地记录到 SubMatches 集合中。然而,当匹配逻辑变得复杂时,这位“助手”过于细致的记录有时反而会成为一种负担
什么是非捕获组
为了卸下负担,解决“只需分组、无需捕获”的需求,非捕获组应运而生
VBA正则表达式中的非捕获组是一个非常实用的分组工具,可以帮助我们优化表达式结构并提升匹配效率,其语法为:
(?:Expression)其中 Expression 是要进行分组的正则表达式,通过预定义字符、字符类、量词等组合而成
当我们需要使用圆括号 () 来对表达式进行分组,但又不希望这个分组被单独捕获出来作为结果的一部分时,可考虑使用非捕获组。这可以避免产生不必要的子匹配项,使结果更清晰
非捕获组 VS 捕获组
为了直观理解非捕获组和捕获组的区别,我们来看两段代码
以下示例代码需求:从文本中提取日期信息,并分别输出完整的日期以及年、月、日三个部分,这里需要用到捕获组
Dim match' 创建正则表达式对象With CreateObject("VBScript.RegExp").Global = True ' 搜索全部匹配项.IgnoreCase = False ' 区分大小写.Pattern = "(\d{4})-(\d{2})-(\d{2})"For Each match In .Execute("合同签订时间:2025-09-17,生效日:2025-10-15")Debug.Print matchDebug.Print match.SubMatches(0)Debug.Print match.SubMatches(1)Debug.Print match.SubMatches(2)NextEnd With
代码的核心是要搜索的模式:\d{4} 匹配4位数字(年),\d{2} 匹配2位数字(月或日),因此执行后结果:
从图中可以看出,SubMatches中已经分别提取到了年、月和日这三个部分
然而有些场景我们可能只关心月和日两个分组数据,此时SubMatches就不需要存储年份相关的分组内容,因此代码修改为:
Dim match' 创建正则表达式对象With CreateObject("VBScript.RegExp").Global = True ' 搜索全部匹配项.IgnoreCase = False ' 区分大小写.Pattern = "(?:\d{4})-(\d{2})-(\d{2})"For Each match In .Execute("合同签订时间:2025-09-17,生效日:2025-10-15")Debug.Print matchDebug.Print match.SubMatches(0)Debug.Print match.SubMatches(1)NextEnd With
匹配模式中(?:\d{4})即为非捕获组,就是在捕获组基础上增加问号和冒号这两个符号,它的作用是匹配但不捕获年份,因此实际只有两个捕获组:
match.SubMatches(0)存放月,如"09"
match.SubMatches(1)存放日,如"17"
这样处理之后,SubMatches结果中保留的均为目标数据,有效排除了非必要分组信息的干扰
总之,将不需要引用的分组改为非捕获组是一个良好的编程习惯,使代码逻辑变得清晰,避免分组编号混乱。另外,在非常复杂的正则表达式中,将不需要引用的普通捕获组 () 改为非捕获组 (?:),还能带来性能提升
结束语
今天的分享就到这里了,咱们下期继续
公众号同时也在不间断地分享免费的编程案例,如果想学习更多的编程知识,无论是用来提升自动化办公效率还是想提升自我,都可以关注我的公众号“努力鸭是黑色的”,解锁更多的VBA技能