0

这是示例 xml 文档:

<bookstore>
    <book category="COOKING">
        <title lang="english">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>300.00</price>
    </book>

    <book category="CHILDREN">
        <title lang="english">Harry Potter</title>
        <author>J K. Rowling </author>
        <year>2005</year>
        <price>625.00</price>
    </book>
</bookstore>

我想在不指定元素的情况下提取文本,我该怎么做,因为我有 10 个这样的文档。我想要这样,因为我的问题是用户输入了一些我不知道的单词,必须在所有 10 个 xml 文档的各自文本部分中对其进行搜索。为此,我应该在不知道元素的情况下知道文本的位置。还有一件事是所有这些文件都不同。

请帮忙!!

4

3 回答 3

2

可以使用带有 xpath 查询的 lxml 库:

xml="""<bookstore>
    <book category="COOKING">
        <title lang="english">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>300.00</price>
    </book>

    <book category="CHILDREN">
        <title lang="english">Harry Potter</title>
        <author>J K. Rowling </author>
        <year>2005</year>
        <price>625.00</price>
    </book>
</bookstore>
"""
from lxml import etree
root = etree.fromstring(xml).getroot()
root.xpath('/bookstore/book/*/text()')
# ['Everyday Italian', 'Giada De Laurentiis', '2005', '300.00', 'Harry Potter', 'J K. Rowling ', '2005', '625.00']

虽然你没有得到类别....

于 2012-07-01T04:57:18.373 回答
0

如果您想从 python 内部调用 grep,请参阅此处的讨论,尤其是这篇文章。

如果要搜索目录中的所有文件,可以使用 glob 模块尝试类似的操作:

import glob    
import os    
import re    

p = re.compile('>.*<')    
os.chdir("./")    
for files in glob.glob("*.xml"):    
    file = open(files, "r")    
    line = file.read()    
    list =  map(lambda x:x.lstrip('>').rstrip('<'), p.findall(line))    
    print list    
    print 

此搜索遍历目录中的所有文件,打开每个文件并提取与正则表达式匹配的文本。

输出:

['Everyday Italian', 'Giada De Laurentiis', '2005', '300.00', 'Harry Potter', 'J
 K. Rowling ', '2005', '625.00']

编辑:更新代码以仅从 xml 中提取文本元素。

于 2012-07-01T04:56:48.703 回答
-1

您可以简单地删除任何标签:

>>> import re
>>> txt = """<bookstore>
...     <book category="COOKING">
...         <title lang="english">Everyday Italian</title>
...         <author>Giada De Laurentiis</author>
...         <year>2005</year>
...         <price>300.00</price>
...     </book>
...
...     <book category="CHILDREN">
...         <title lang="english">Harry Potter</title>
...         <author>J K. Rowling </author>
...         <year>2005</year>
...         <price>625.00</price>
...     </book>
... </bookstore>"""
>>> exp = re.compile(r'<.*?>')
>>> text_only = exp.sub('',txt).strip()
>>> text_only
'Everyday Italian\n        Giada De Laurentiis\n        2005\n        300.00\n
  \n\n    \n        Harry Potter\n        J K. Rowling \n        2005\n        6
25.00'

但是,如果您只想在 Linux 中搜索文件中的某些文本,则可以使用grep

burhan@sandbox:~$ grep "Harry Potter" file.xml
        <title lang="english">Harry Potter</title>

如果要在文件中搜索,请使用grep上面的命令,或者打开文件并在 Python 中搜索:

>>> import re
>>> exp = re.compile(r'<.*?>')
>>> with open('file.xml') as f:
...     lines = ''.join(line for line in f.readlines())
...     text_only = exp.sub('',lines).strip()
...
>>> if 'Harry Potter' in text_only:
...    print 'It exists'
... else:
...    print 'It does not'
...
It exists
于 2012-07-01T04:36:32.657 回答