【Python基础知识】常用内建模块-re_

编程语言中的正则表达式用于描述搜索模式的特殊文本字符串。这对于从文本(如代码、日志、文档、电子表格等)中提取信息非常有用。使用正则表达式时，首先要认识到的是，所有内容本质上都是一个字符。ASCII或拉丁字母是键盘上的字母，Unicode用于匹配外来文本，它包括数字和标点符号以及所有特殊字符，如$、#、@、!、%等。

例如，正则表达式可以告诉程序从字符串中搜索特定文本，然后相应地打印出结果。正则表达式可以包括文字匹配、重复、分支、模式组成等。

在Python中，正则表达式通过re模块导入。元字符是具有特殊含义的字符，用来匹配特定文本。常用的元字符如表所示。

re模块中定义了一些函数，分别对应不同的匹配模式。

findall()函数用于返回包含所有匹配项的字符串列表：

>>> import re # 导入re模块，以下示例都将省略这行代码

>>> s = 'hello 12 hi 89. How 34'

>>> pattern = '\d+' # 匹配数字

>>> result = re.findall(pattern, s)

>>> print(result)

['12', '89', '34']

split()函数用于在存在匹配项的情况下拆分字符串，并返回发生拆分的字符串列表：

>>> s = 'python:234, java 90' # 将数字作为分隔符

>>> pattern = '\d+'

>>> result = re.split(pattern, s)

>>> print(result)

['python:', ', java ', '']

如果不存在匹配项，那么split()函数返回一个包含空字符串的列表。可以将maxsplit参数传递给split()函数，maxsplit代表最大拆分次数：

>>> s = 'python:234, java 90'

>>> pattern = '\d+'

>>> result = re.split(pattern, s, 1) # 分割最大值是1，即拆成两份

>>> print(result)

['python:', ', java 90']

sub()函数用于返回一个字符串，其中匹配到的匹配项被替换变量的内容替换：

>>> s = 'abc 12\

... de 23 \n f45 6'

>>> pattern = '\s+' # 匹配空白字符

>>> replace = '' # 用空字符串替换匹配项

>>> new_string = re.sub(pattern, replace, s)

>>> print(new_string) # 完成替换

abc12de23f456

如果不存在匹配项，那么sub()函数返回原始字符串。

subn()函数与sub()函数类似，只不过subn()函数返回一个包含2个项的元组，其中包含新字符串和进行替换的次数：

>>> s = 'abc 12\

... de 23 \n f45 6'

>>> pattern = '\s+'

>>> replace = ''

>>> new_string = re.subn(pattern, replace, s)

>>> print(new_string)

('abc12de23f456', 4)

search()函数采用两个参数，分别是匹配模式和字符串。该函数查找正则表达式模式与字符串匹配的第一个位置。如果匹配成功，那么search()函数返回一个match对象;否则返回None：

>>> s = 'Python is fun'

>>> match = re.search('\APython', s) # 检查'Python'是否在开头

>>> print(match) # 返回一个对象

<_sre.SRE_Match object; span=(0, 6), match='Python'>

上面的match变量包含着match对象，match对象的re属性返回一个正则表达式对象，string属性返回传递的字符串：

>>> match.re

re.compile('\\APython')

>>> match.string

'Python is fun'

python

首页

python

【Python基础知识】常用内建模块-re

领取零基础自学IT资源

相关推荐