正则表达式专题
专题说明
正则表达式是文本处理的利器。本专题从元字符和量词的基础出发,深入讲解分组与捕获、零宽断言、re模块的API使用、正则性能优化以及常见实战场景,帮助学习者全面掌握正则表达式的编写和运用。
学习目标
- 掌握正则表达式的基本语法和元字符
- 理解分组、捕获和反向引用机制
- 熟练使用零宽断言(先行和后行断言)
- 掌握re模块的search、match、findall、sub等方法
- 了解正则性能优化和常见陷阱
学习内容
本专题涵盖以下核心知识点:
元字符与量词
- 常见元字符:. ^ $ * + ? { } [ ] | ( )
- 字符类:\d \w \s \D \W \S
- 量词:贪婪与惰性匹配
- 转义字符:. * + 等
分组与捕获
- 普通分组 ()
- 非捕获分组 (?:)
- 命名分组 (?P)
- 反向引用 \1 \2
- 分组在sub中的应用
零宽断言
- 正向先行断言 (?=)
- 负向先行断言 (?!)
- 正向后行断言 (?<=)
- 负向后行断言 (?<!)
re模块API
- match、search、findall、finditer
- sub、subn、split
- compile预编译
- 修饰符:re.IGNORECASE、re.MULTILINE、re.DOTALL
实战场景
- 邮箱、手机号、URL验证
- 日志解析
- HTML标签匹配
- 文本提取与替换
学习建议
- 先掌握基本语法,再学习高级特性
- 使用在线正则工具测试和调试表达式
- 注意贪婪和惰性匹配的区别
- 复杂场景考虑使用命名分组提高可读性
📝 发现内容有误?点击此处直接编辑