2

我正在尝试使用 pyparsing 解析文本。我的功能如下图所示。首先,我构建了一个列表,其中包含我的字典中的所有术语(我网站中常用术语的字典)。然后我将我的语法设置为这个常用单词列表。然后我用语法构造 ZeroOrMore 对象。最后,我解析字符串,我应该得到在我的字符串中找到的匹配项。但是,它会抛出 ParseException ,而不是抱怨预期文本结束。

def map_dict_words(self, pbody):
        dict_terms = [term.term for term in Dictionary.objects()]
        look_for_these = oneOf(dict_terms, caseless=True).setResultsName("dict_words")
        parseobj = ZeroOrMore(look_for_these)
        matches = parseobj.parseString(pbody, parseAll=True)
        print matches

根据 pyparsing 主页http://pyparsing-public.wikispaces.com/FAQs中的常见问题解答,如果我希望解析器解析整个字符串,我应该将 StringEnd() 放入我的语法中,或者使用可选的 arg parseAll=True。如果我从我的代码中删除 parseAll=True 它可以工作,但它不会解析整个字符串。

有任何想法吗?

4

2 回答 2

6

parseString您可能对使用scanStringor更感兴趣,而不是searchString。与 不同parseString的是,这些函数会浏览输入以查找匹配项,而不是要求输入字符串中的所有内容完全匹配。 scanString返回一个生成器,因此对于大型输入文本,将在找到匹配项时为您提供匹配项:

for toks,start,end in look_for_these.scanString(pbody):
    print toks[0], start, end

searchString只是一个简单的包装器scanString(尽管会删除开始和结束位置):

for t in look_for_these.searchString(pbody):
    print t[0]
于 2011-09-26T21:53:21.950 回答
4

将 pyparsing 视为更高级的正则表达式。当您传递它时parseAll=True,它希望匹配整个字符串,将每个字节限定为语法的某些部分。但是,您的语法仅提及将出现在字符串中的一些单词。您必须以某种方式考虑其余部分。

换句话说,假设流行词是“parrot”、“hovercraft”、“eels”和“fjords”,你已经构建了一个等价的正则表达式:

/^(?P<dict_words>eels|fjords|hovercraft|parrot)*$/
于 2011-09-26T20:24:07.447 回答