我正在玩 dbpedia 提取框架。看起来很不错,我很高兴构建维基百科页面的 AST 并提取链接(使用 WikiParser)。然而,虽然我从解析中得到了一个很好的结构化树,但我注意到文本节点仍然包含许多格式标记(例如,用于斜体、粗体等的撇号)。出于我的目的,这些没有帮助 - 我只想要纯文本。
我可以花一些时间编写自己的代码来删除它,但我假设这样的东西对 dbpedia 很有用 - 并且它存在于库中的某个地方。我对吗?如果是这样 - 剥离到裸文本的额外功能在哪里?
否则 - 有没有人知道任何其他(最好是 scala)包来去除 mediawiki 标记?
编辑
应要求提供更多详细信息。以下标记:
''An italicised '''bit''' of text'', <b>Some markup</b>
来自 dbpedia 作为 TextNode 的内容,但未触及。我希望能够将其剥离为:
An italicised bit of text, Some markup
或者可能是一个更结构化的 AST,其附加节点表示原始文本的每个部分,可能(在每个节点上)用要应用的格式类型(例如斜体、粗体等)进行注释。
事实上,dbpedia 解析的最终结果仍然充满了标记。
希望有帮助。