java - 解析出维基百科的 IPAc

Question

我想从维基百科标记中解析出 IPAc 模板的内容，例如：

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}})

魔芋（英文发音：/ˈkoʊnjæk/）

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}} {{respell|KOHN|yak}})

魔芋（英文发音：/ˈkoʊnjæk/ kohn-yak）

''Konjac'' is pronounced {{IPAc-en|ˈ|k|oʊ|n|j|æ|k}} in English.

魔芋在英语中发音为 /ˈkoʊnjæk/。

我需要什么正则表达式来提取此内容|k|oʊ|n|j|æ|k我不知道如何匹配可能存在但可能不存在的内容（lang|pron）

谢谢

score 1 · Accepted Answer

我会试试这个：

IPAc-en(?:\w|[|])+.(?:[|]|([^}]))+(?:}}\s*{{respell(?:[|]|([^}]))+)?

它应该匹配主要的发音以及可选的“respell”东西。

两个发音的匹配项都将在捕获组中，因此您应该能够从 java 访问它。

解释：

1 回答 1