【3】数据分析-2-正则表达式操作--re

  • 通用字符串表达框架
  • 简洁表达一组字符串的表达式
  • 针对字符串表达“简洁”和“特征”思想的工具
  • 判断字符串的特征归属

一、正则表达的原则

这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。 正则表达式使用反斜杠" \ “来代表特殊形式或用作转义字符,这里跟Python的语法冲突,因此,**Python用” \\ “表示正则表达式中的” \ “,**因为正则表达式中如果要匹配” \ “,需要用\来转义,变成” \ “,而Python语法中又需要对字符串中每一个\进行转义,所以就变成了” \\ “。

上面的写法是不是觉得很麻烦,为了使正则表达式具有更好的可读性,Python特别设计了原始字符串(raw string),需要提醒你的是,在写文件路径的时候就不要使用raw string了,这里存在陷阱。raw string就是用’r’作为字符串的前缀,如 r”\n":表示两个字符""和"n",而不是换行符了。Python中写正则表达式时推荐使用这种形式。 绝大多数正则表达式操作与 模块级函数或RegexObject方法 一样都能达到同样的目的。而且不需要你一开始就编译正则表达式对象,但是不能使用一些实用的微调参数。

rs_0

二、re包的介绍

  • re.search()  在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
  • re.match()  从一个字符串的开始位置起匹配正则表达式,返回match对象
  • re.findall()  搜索字符串,以列表类型返回全部能匹配的子串
  • re.split()     将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
  • re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
  • re.sub()  在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

1.match和search

Python提供了两种不同的原始操作:match和search。match是从字符串的起点开始做匹配,而search(perl默认)是从字符串做任意匹配。 注意:当正则表达式是**' ^ ‘**开头时,match与search是相同的。match只有当且仅当被匹配的字符串开头就能匹配或从pos参数的位置开始就能匹配时才会成功。如下:

>>> import re
>>> re.match("c", "abcdef")
>>> re.search("c","abcdef")
<_sre.SRE_Match object at 0x00A9A988>
 
>>> re.match("c", "cabcdef")
<_sre.SRE_Match object at 0x00A9AB80>
 
>>> re.search("c","cabcdef")
<_sre.SRE_Match object at 0x00AF1720>
 
>>> patterm = re.compile("c")
>>> patterm.match("abcdef")
>>> patterm.match("abcdef",1)
>>> patterm.match("abcdef",2)
<_sre.SRE_Match object at 0x00A9AB80>

3.模块内容

re.compile(pattern, flags=0)

编译正则表达式,返回RegexObject对象,然后可以通过RegexObject对象调用match()和search()方法。

prog = re.compile(pattern)
result = prog.match(string)
跟
result = re.match(pattern, string)
是等价的。
第一种方式能实现正则表达式的重用。

re.search(pattern, string, flags=0)
在字符串中查找,是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

re.match(pattern, string, flags=0)
字符串的开头是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

split

re.split(pattern, string, maxsplit=0)

多个字符的分割

aa ="123a345b7889"
>>> re.split('a|b',aa)
['123', '345', '7889']

>>> aa ="123a345b78|89"
>>> re.split('a|\|',aa)
['123', '345b78', '89']

通过正则表达式将字符串分离。如果用括号将正则表达式括起来,那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制次数。

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
>>> re.split('11','abc11abc11')
['abc', 'abc', '']

注意:我使用的Python是2.6,查看源代码发现split()并没有flags的参数,2.7才增加。这种问题我发现不止一次了,官方的文档 跟 源码不一致的现象,如果发现异常,应该去源码中找找原因。

如果在字符串的开始或结尾就匹配,返回的list将会以空串开始或结尾。

>>> re.split('(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

如果字符串不能匹配,将会返回整个字符串的list。

>>> re.split("a","bbb")
['bbb']

re.findall(pattern, string, flags=0)
找到 RE 匹配的所有子串,并把它们作为一个列表返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。


>>> re.findall("a","bcdef")
[]
>>> re.findall(r"\d+","12a32bc43jf3")
['12', '32', '43', '3']

pheno = re.findall(r'>(.*)</a>', fclinks.extract()[jj])
如果匹配的内容加一个括号,返回的就是括号内的的内容

找到 RE 匹配的所有子串,并把它们作为一个迭代器返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。

>>> it = re.finditer(r"\d+","12a32bc43jf3")
>>> for match in it:
 print match.group()
12
32
43
3

找到 RE 匹配的所有子串,并将其用一个不同的字符串替换。可选参数 count 是模式匹配後替换的最大次数;count 必须是非负整数。缺省值是 0 表示替换所有的匹配。如果无匹配,字符串将会无改变地返回。

re.sub(pattern, repl, string, count=0, flags=0)

与re.sub方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。

re.subn(pattern, repl, string, count=0, flags=0)

对字符串中的非字母数字进行转义

re.escape(string)

清空缓存中的正则表达式

re.purge()

4.正则表达式对象

re.RegexObject
re.compile()返回RegexObject对象

re.MatchObject
group()返回被 RE 匹配的字符串
start()返回匹配开始的位置
end()返回匹配结束的位置
span()返回一个元组包含匹配 (开始,结束) 的位置

5.编译标志

编译标志让你可以修改正则表达式的一些运行方式。在 re 模块中标志可以使用两个名字,一个是全名如 IGNORECASE,一个是缩写,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同样的字母;例如 re.VERBOSE的缩写形式是 re.X。)多个标志可以通过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:

I
IGNORECASE

使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也可以匹配小写字母,Spam 可以匹配 “Spam”, “spam”, 或 “spAM”。这个小写字母并不考虑当前位置。

L
LOCALE

影响 “w, “W, “b, 和 “B,这取决于当前的本地化设置。 locales 是 C 语言库中的一项功能,是用来为需要考虑不同语言的编程提供帮助的。举个例子,如果你正在处理法文文本,你想用 “w+ 来匹配文字,但 “w 只匹配字符类 [A-Za-z];它并不能匹配 “é” 或 “?"。如果你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 “é” 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 “w 後的编译对象;这会更慢,但也会象你希望的那样可以用 “w+ 来匹配法文文本。

M
MULTILINE

(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.) 使用 “^” 只匹配字符串的开始,而 $ 则只匹配字符串的结尾和直接在换行前(如果有的话)的字符串结尾。当本标志指定後, “^” 匹配字符串的开始和字符串中每行的开始。同样的, $ 元字符匹配字符串结尾和字符串中每行的结尾(直接在每个换行之前)。

S
DOTALL

使 “.” 特殊字符完全匹配任何字符,包括换行;没有这个标志, “.” 匹配除了换行外的任何字符。

X
VERBOSE

该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时,在 RE 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之後;这可以让你更清晰地组织和缩进 RE。它也可以允许你将注释写入 RE,这些注释会被引擎忽略;注释用 “#“号 来标识,不过该符号不能在字符串或反斜杠之後。

最后:如果能用字符串的方法,就不要选择正则表达式,因为字符串方法更简单快速。

三、讨论

3.1 group提取

>>> m=re.match(r'www\.(.*)\..{3}','www.python.org')
>>> m.group(1)
'python'

>>> m = re.match(r"(..)+", "a1b2c3")
>>> m.group(1) # Returns only the last match.
'c3'

问题:为什么匹配的不是a1?

原因:

我在《Python核心编程》第461页里看到了相关的解释。 因为匹配一个子组(..),最后group()方法也只是返回一个子组,即便多次匹配,不过group()返回最后一个匹配的子组而已。

1.正则表达式中的三组括号把匹配结果分成三组

group() 同group(0)就是匹配正则表达式整体结果
group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。

2.没有匹配成功的,re.search()返回None

3.当然正则表达式中没有括号,group(1)肯定不对了。

解决办法:

>>> m = re.match(r"(..)(..)(..)", "a1b2c3")
>>> m.group(1)
'a1'
 
>>> m = re.search(r"(.*)<\a3b3>", "a2b2<\a3b3>")
>>> m.group(1)
'a2b2'
 
>>> m = re.search(r"(.*)<\a3b3>", "a2b2<\a3b3>")
>>> m.group(1)
'a2b2'

>>>m=re.search(r"(.*)","1_1")
能匹配上,注意,如果这里面是否需要转义

3.2 问题2:[A/T]的捕获

m=re.search(r"(\[./.\])",seq) #m looks like [A/T]

3.3 匹配全部的数字

#\d+ 匹配字符串中的数字部分,返回列表

ss = 'adafasw12314egrdf5236qew'
num = re.findall('\d+',ss)
print(num)

#运行结果

#['12314', '5236']

然后判断一下捕获出来的数值和字符串总长度即可了

3.4 返回string中某元素所有的index

import re
[m.start() for m in re.finditer('test', 'test test test test')]
#[0, 5, 10, 15]
 
[m.start() for m in re.finditer('e', 'loveleetcode')]
#[3, 5, 6, 11]

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn