0

问题的简短背景:我正在 vb.net 中开发 NLP(自然语言处理)应用程序,我决定使用 Wikipedia 作为我的文本训练集。

我已将 Wikipedia 下载为 XML 文件,但无法提取纯文本。我一直在尝试使用正则表达式从 xml 文件中获取段落的文本,但它似乎并没有那么好。我遇到的问题是,当您查看 wiki 页面(例如:Wiki 上的 Anarchism)时,内部链接(指向其他 wiki 文章)只是显示为文本,但在 xml 文件中它们看起来像这样:[[自由关联(共产主义和无政府主义)|自由结社]]。我不想要方括号,因为这只是用于链接的格式,我不想要第二页 ID(自由关联),因为这不是文本呈现给读者的方式。还有我不想删除的样式问题(我Dim expression As New Regex("/\<[a-z0-9\ ]+\>/").

要从我正在使用的 xml 文件中获取实际文本:

Dim reader As XmlTextReader = New XmlTextReader("location of xml file")    

Do While (reader.Read())
                Select Case reader.NodeType
                    Case XmlNodeType.Text 'Display the text in each element.
                         'code goes here
                End Select

Loop

我一直在互联网上寻求帮助,并找到了一些有用的文章,但到目前为止我的代码仍然无法正常工作。任何帮助(甚至是有用的链接)都会很棒!

谢谢!

4

0 回答 0