我正在研究维基百科提供的媒体 wiki xml,我正在尝试预处理数据,删除和替换文本中的一些特定表达式。一种这样的预处理是替换所有指向维基百科页面的内部链接,如下所示 -
输入 -
text here [[foo|bar]] text here [[some.jpg|some|this is an image of some]] text here
输出 -
text here foo bar text here some.jpg some this is an image of some text here
这是我目前能够实现的 -
String regex = "(\\[\\[(.+?)\\]\\]*)";
string.replaceAll(regex, "$2"));
这有助于我[[]]
从文本中删除。但我有点卡住试图"|"
用空间替换管道" "
。
感谢任何帮助。