xml - 如何从维基百科页面 VB.net 的 xml 中获取段落文本

Question

问题的简短背景：我正在 vb.net 中开发 NLP（自然语言处理）应用程序，我决定使用 Wikipedia 作为我的文本训练集。

我已将 Wikipedia 下载为 XML 文件，但无法提取纯文本。我一直在尝试使用正则表达式从 xml 文件中获取段落的文本，但它似乎并没有那么好。我遇到的问题是，当您查看 wiki 页面（例如：Wiki 上的 Anarchism）时，内部链接（指向其他 wiki 文章）只是显示为文本，但在 xml 文件中它们看起来像这样：[[自由关联（共产主义和无政府主义）|自由结社]]。我不想要方括号，因为这只是用于链接的格式，我不想要第二页 ID（自由关联），因为这不是文本呈现给读者的方式。还有我不想删除的样式问题（我Dim expression As New Regex("/\<[a-z0-9\ ]+\>/").

要从我正在使用的 xml 文件中获取实际文本：

Dim reader As XmlTextReader = New XmlTextReader("location of xml file")    

Do While (reader.Read())
                Select Case reader.NodeType
                    Case XmlNodeType.Text 'Display the text in each element.
                         'code goes here
                End Select

Loop

我一直在互联网上寻求帮助，并找到了一些有用的文章，但到目前为止我的代码仍然无法正常工作。任何帮助（甚至是有用的链接）都会很棒！

谢谢！

xml - 如何从维基百科页面 VB.net 的 xml 中获取段落文本

0 回答 0

Related

Reference