我有一个包含以下数据类型和结构的文件:
<data>
<from>A</from>
<to>B</to>
<data>
<name>EXAMPLE ONE</name>
<info>
<some_data>1</some_data>
<more_data>2</more_data>
</info>
<random>
<some_tag>
</foobar>
<foo>
<bar />
</foo>
</random>
</data>
<data>
<name>EXAMPLE TWO</name>
<info>
<some_data>3</some_data>
<more_data>4</more_data>
</info>
<random>
<some_tag>
</foobar>
<foo>
<bar />
</foo>
</random>
</data>
</data>
<data>
<from>C</from>
<to>D</to>
<data>
<name>EXAMPLE</name>
<info>
<some_data>1</some_data>
<more_data>2</more_data>
</info>
<random>
<some_tag>
</foobar>
<foo>
<bar />
</foo>
</random>
</data>
</data>
数据在文件中以这种精确的结构继续,除了可以重复 n 次的最里面的<data>...</data>
标签,数据结构总是以<data>
标签开始,然后以<from>...</from>
和<to>...</to>
标签继续。
我想要做的是提取最外层<data>
标签之间的所有数据,<to>
并<from>
作为数据块的描述。我当然也想将最里面的标签彼此分开,<data>
并以某种方式保存这些数据,以便清楚地知道最外面的数据与父数据相关。
我不知道我想如何保存数据,所以任何例子都值得赞赏!
我正在使用 Python 模块 BeautifulSoup 对此进行测试,并在这里搜索并阅读了很多示例,但没有找到任何可以为我指明正确方向的东西。
谢谢!