JS理解正则表达式

原文：理解正则表达式

在我初学正则表达式的时候，走了一些弯路，强行记忆了很多符号和用法。

等到我有更深入的理解的时候我发现，从翻译和概念的角度上切入，学习起来会顺畅得多。

本文以JavaScript里的正则表达式为例，讲解其中的关键要素。希望能帮助到初学者。

注：也只限于阐述关键要素，不会事无巨细地展开。

何为正则表达式？

在中文语境里，「正则」两个字有点让人发怵，仿佛高深数学或物理中的「正则化」和「归一化」，抽象而难懂。

其实放到英文里，它是regular expression，而regular有「规律、规范、整齐、合格、正规」等意味，「正则」只是其中一种翻译。

不把它翻译成一个词组，而翻译成一句话，大致是：表达规范和规则的句子。

这里的规范和规则，指的是一个字符串的形式规则。

至于JavaScript里的 RegExp 构造函数，是Regular Expression的前三个字母缩写。

正则表达式的格式

在JavaScript里，正则表达式有两个构造方式，一个是通过RegExp这个构造函数创建实例，另一个是正则表达式字面量写法。

var regexp1 = new RegExp('hello regular expression')
var regexp2 = /hello regular expression/

// test 方法，测试给定的字符串是否符合正则表达式所描述的字符串格式
regexp1.test('hello regular expression') // -> true
regexp1.test('hello word') // -> false

// exec 方法，是 execute 这个单词的缩写，「执行」。返回给定的字符串中符合「正则表达式所描述的字符串格式」的部分
regexp2.exec('hello regular expression') //  返回 'hello regular expression'
regexp2.exec('hello regular expression, more words') //  只返回 'hello regular expression'，其它部分不匹配

正则表达式里的元字符

元字符听起来也很抽象，其实换个例子就容易理解：学习如何学习，叫元学习；关于知识的知识，叫元知识。

元字符，则是描述字符的字符，比如，数字，字母，空格，换行等。

元编程，就是能生成代码的代码，在 Javascript 构造符合语法的字符串，放到eval(code)里运行一下，你就在元编程了。

然后看看元字符、元编程的英文：meta-character与meta-programming，对 meta 长个记性，怯魅。

列举几个元字符。元字符大多以反斜杠开头，因为前面展示的「正则表达式字面量」写法里，用的是两个斜杠包裹，所以得用反斜杠或其他标识符。

d，匹配单个数字；d 是 digit 这个单词的缩写，它的中文意思就是「数字」
w，匹配单个单词字符，w 是 word 的缩写，就是字母 a-z，数字 0-9，不包括逗号、句号、加减乘除号、括号等。
s，匹配单个空白字符，s 是 space 的缩写，就是空白的意思。
n，匹配换行符，n 是 newline 的缩写，中文就是换行。
r，匹配回车符，r 就是 return 的缩写，回车在这里就是它的中文意思。
t，匹配制表符，就是 tab 键打出来的一串用以缩进的空白字符，tab 是 tabel 的缩写，table 就有表格和制表的意思。
b，匹配单词边界，b 是 boundary 的缩写，中文就是边界的意思。

如你所见，所谓的元字符，就是反斜杠加单词缩写，来表征某个字符类型。这就是它们的设计原则。

正则表达式里的量词

元字符大多只能表示单个字符的类型。

我们还需要量词，以表示「有，有0到多个，有至少一个，有n个以上，有n到m个，以某个字符开头，以某个字符结尾等」。

这时你可以停下来，稍作思考，让你来设计，你会设计成什么样？

Javascript的设计如下：

n+，至少1个 n 类型的字符
n*，0到多个 n 类型的字符
n?，0 或 1 个 n 类型的字符
n{X}，X 个 n 类型的字符
n{X,Y}，X 到 Y 个 n 类型的字符
n{X,}，至少 X 个 n 类型的字符
n$，以 n 类型的字符结尾
^n，以 n 类型的字符开头

如你所见，大致是一些类似数学里表达区间的意思。

正则表达式里的表达式

你可以戏谑地说它是「元表达式」。

其实，它们也是描述范围的，只是不是所有范围都是关于某个字符类型n 的数量和出现位置，有些范围跟多个字符组成的集合有关。

比如，在这几个字符类型之内，在这几个字符类型之外的，便利地表示 26 个字母，便利地表示 10 个数字字符。

Javascript的设计如下：

[abc]，匹配单个字符，它是abc的集合的元素
[^abc]，匹配单个字符，它不是abc的集合的元素
[0-9]，匹配单个字符，它是从0到9这个集合的元素
[a-z]，匹配单个字符，它是26 字母这个集合的元素
(red|blue|green)，匹配多个连续字符，它是 red blue green 这三个词的集合的元素

小试牛刀

匹配一个电话号码，形式如 020-88813243。

简单版本，(开头)三个数字+一个横杠+八个数字（结尾），就是/^d{3}-d{8}$/。

需求变化，只匹配 020 开头的电话号码，就是/^020-d{8}$/。

需求变化，支持分机，分机为 5 个数字，加后缀，就是/^020-d{8}-d{5}$/。

需求变化，电话号码可以是7个，用区间量词，就是/^020-d{7,8}-d{5}$/。

需求变化，有可能没有分机，用区间量词，中括号包裹住分机为一组，后面加个问号，表示0或多个，就是/^020-d{7,8}(-d{5})?$/。

需求变化，区隔符可能是横杠，也可能是星号或空格，用集合表达式，就是/^020[-*s]d{7,8}([-*s]d{5})?$/

结语

在我们理解了正则表达式的概念和设计思路之后，剩下的，就是查文档和寻找模式的工作了。

实在有难题，网上也可以搜索到现成的坚实的正则表达式可用。这里面的门道还是很多的，在此我们入个门，打个基础即可。

补充：正则表达式简要学习

元字符

元字符是功能性的匹配符号, 如:
b 单词的开头或结尾，也就是单词的分界处
* 匹配任意数量的字符
. 匹配除了换行之外的所有字符
d 匹配0到9单个数字
s 匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等
w匹配字母或数字或下划线或汉字等
^ 匹配字符串的开始
$ 匹配字符串的结束

字符转意

查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此，你应该使用.和*。当然，要查找本身，你也得用\

字符类

[ ] 集合查找 ,比如 [abcde] 表示匹配里面包含的字符 , 常见的[0-9]和d等价, 即匹配一位数字, [a-z0-9A-Z_]也完全等同于w（如果只考虑英文的话）
(?0d{2}[) -]?d{8}首先是一个转义字符(,它能出现0次或1次?,然后是一个0，后面跟着2个数字d{2}，然后是)或-或空格中的一个，它出现0次或1次?，最后是8个数字d{8}

分枝条件

上面那个表达式也能匹配010)12345678或(022-87654321这样的“不正确”的格式。
正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。
0d{2}-d{8}|0d{3}-d{7}表示0开头接两位数字,-后面连着8位数的电话号码,比如020-12345678 或者 0开头接三位数字,-后面连着7位数的电话号码,比如0751-1234567
使用分枝条件时，要注意各个条件的顺序。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

分组

如果想要重复多个字符又,你可以用小括号来指定子表达式(也叫做分组)
(d{1,3}.){3}d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：d{1,3}匹配1到3位的数字，(d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(d{1,3})。
正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)

反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：

符号	表示
W	匹配任意不是字母，数字，下划线，汉字的字符
S	匹配任意不是空白符的字符
D	匹配任意非数字的字符
B	匹配不是单词开头或结束的位置
[ ^x ]	匹配除了x以外的任意字符
[ ^aeiou ]	匹配除了aeiou这几个字母以外的任意字符

例子：
S+匹配不包含空白符的字符串。
<a[^>]+>匹配用尖括号括起来的以a开头的字符串

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。
有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）
为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权

符号	表示
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

参考: http://deerchao.net/tutorials/regex/regex.htm

JS理解正则表达式

何为正则表达式？

正则表达式的格式

正则表达式里的元字符

正则表达式里的量词

正则表达式里的表达式

小试牛刀

结语

元字符

字符转意

字符类

分枝条件

分组

反义

贪婪与懒惰

Published by

风君子

发表回复取消回复

何为正则表达式？

正则表达式的格式

正则表达式里的元字符

正则表达式里的量词

正则表达式里的表达式

小试牛刀

结语

元字符

字符转意

字符类

分枝条件

分组

反义

贪婪与懒惰

Published by

风君子

发表回复 取消回复

发表回复取消回复