问题的简短背景:我正在 vb.net 中开发 NLP(自然语言处理)应用程序,我决定使用 Wikipedia 作为我的文本训练集。
我已将 Wikipedia 下载为 XML 文件,但无法提取纯文本。我一直在尝试使用正则表达式从 xml 文件中获取段落的文本,但它似乎并没有那么好。我遇到的问题是,当您查看 wiki 页面(例如:Wiki 上的 Anarchism)时,内部链接(指向其他 wiki 文章)只是显示为文本,但在 xml 文件中它们看起来像这样:[[自由关联(共产主义和无政府主义)|自由结社]]。我不想要方括号,因为这只是用于链接的格式,我不想要第二页 ID(自由关联),因为这不是文本呈现给读者的方式。还有我不想删除的样式问题(我Dim expression As New Regex("/\<[a-z0-9\ ]+\>/")
.
要从我正在使用的 xml 文件中获取实际文本:
Dim reader As XmlTextReader = New XmlTextReader("location of xml file")
Do While (reader.Read())
Select Case reader.NodeType
Case XmlNodeType.Text 'Display the text in each element.
'code goes here
End Select
Loop
我一直在互联网上寻求帮助,并找到了一些有用的文章,但到目前为止我的代码仍然无法正常工作。任何帮助(甚至是有用的链接)都会很棒!
谢谢!