0

希望这个帖子越来越好。。

所以我被困在这个程序的这个功能上,它将返回指定某个关键字的整个单词。

ie - 如果我告诉它在字符串“blah blah blah blah I=1mV blah blah etc?”中查找单词“I=”,它会返回找到它的整个单词,所以在这种情况下,它会返回 I = 1mV。

我尝试了很多不同的方法,例如,

text = "One of the values, I=1mV is used"
print(re.split('I=', text))

但是,这会返回相同的字符串,但其中没有 I,因此它会返回

['One of the values, ', '1mV is used']

如果我尝试正则表达式解决方案,我会遇到数字可能超过 1 位的问题,因此底部的代码仅在数字为 1 位时才有效。如果 I=10mV 是那个值,它只会返回一个,但如果我有两次 [/0-9],则代码不再适用于只有 1 个值。

text = "One of the values, I=1mV is used"
print(re.findall("I=[/0-9]", text))

['I=1'] 

当我尝试使用 re.match 时,

text = "One of the values, I=1mV is used"
print(re.search("I=", text))

<_sre.SRE_Match object at 0x02408BF0>

什么是检索单词的好方法(在这种情况下,我想检索 I=1mV)并切掉字符串的其余部分?

4

4 回答 4

2

更好的方法是首先将文本拆分为单词:

>>> text = "One of the values, I=1mV is used"
>>> words = text.split()
>>> words
['One', 'of', 'the', 'values,', 'I=1mV', 'is', 'used']

然后过滤单词以找到您需要的单词:

>>> [w for w in words if 'I=' in w]
['I=1mV']

这将返回其中包含的所有单词的列表I=。然后我们可以只取第一个找到的元素:

>>> [w for w in words if 'I=' in w][0]
'I=1mV'

完毕!我们可以做一些清理它的方法是只查找第一个匹配项,而不是检查每个单词。我们可以为此使用生成器表达式:

>>> next(w for w in words if 'I=' in w)
'I=1mV'

当然,您可以调整if条件以更好地满足您的需求,例如,您可以使用str.startswith()检查单词是否以某个字符串开头或re.match()检查单词是否与模式匹配。

于 2012-04-04T02:37:23.830 回答
2

使用字符串方法

作为记录,您尝试将字符串分成两半,I=用作分隔符,几乎是正确的。而不是 using str.split(),它会丢弃分隔符,您可以使用str.partition(),它会保留它。

>>> my_text = "Loadflow current was I=30.63kA"
>>> my_text.partition("I=")
('Loadflow current was ', 'I=', '30.63kA')

使用正则表达式

更灵活和健壮的解决方案是使用正则表达式:

>>> import re
>>> pattern = r"""
... I=             # specific string "I="
... \s*            # Possible whitespace
... -?             # possible minus sign
... \s*            # possible whitespace
... \d+            # at least one digit
... (\.\d+)?       # possible decimal part
... """
>>> m = re.search(pattern, my_text, re.VERBOSE)
>>> m
<_sre.SRE_Match object at 0x044CCFA0>
>>> m.group()
'I=30.63'

这说明了更多的可能性(负数、整数或十进制数)。

注意使用:

  • 量词表示你想要的每件事有多少。
    • a*- 零个或a多个
    • a+- 最后一个a
    • a?a- “可选” - 一或零
  • 带有注释的详细正则表达式(re.VERBOSE标志) - 比非详细等价物更容易理解上述模式,I=\s?-?\s?\d+(\.\d+).
  • 正则表达式模式的原始字符串,r"..."而不是普通字符串"..."- 意味着不必转义文字反斜杠。这里不需要,因为我们的模式不使用反斜杠,但有一天你需要匹配C:\Program Files\...,那一天你需要原始字符串。

练习

  • 练习 1:你如何扩展它以使其也可以匹配单位?以及如何扩展它以使其可以匹配单位为mA,AkA?提示:“交替运算符”。

  • 练习 2:你如何扩展它以便它可以匹配工程符号中的数字,即“1.00e3”或“-3.141e-4”?

于 2012-04-04T04:22:37.807 回答
1
import re
text = "One of the values, I=1mV is used"
l = (re.split('I=', text))
print str(l[1]).split(' ') [0]

I=如果您对 l 中的每个奇数索引执行上述操作不止一个,那么 0 是第一个。

这是一种好方法,因为可以写“其中一个值,使用 I = 1mV”,我猜你想知道 I 是 1mv。

顺便说一句,我是电流的,它的单位是安培而不是伏特:)

于 2012-04-04T02:39:34.600 回答
1

通过您的 re.findall 尝试,您可能想要添加+一个或多个。
这里有些例子:

import re

test = "This is a test with I=1mV, I=1.414mv, I=10mv and I=1.618mv."

result = re.findall(r'I=[\d\.]+m[vV]', test)

print(result)

test = "One of the values, I=1mV is used"

result = re.search(r'I=([\d\.]+m[vV])', test)

print(result.group(1))

第一个打印是:['I=1mV', 'I=1.414mv', 'I=10mv', 'I=1.618mv']

I=除了re.search 示例之外,我已经对所有内容进行了分组,
所以第二个打印是:1mV
如果您有兴趣提取它。

于 2012-04-04T03:18:01.713 回答