我有一个包含文本信息的 200MB 大小的巨大 XML 文档。数据早先存储在具有 2 列的 pagemaker 文件中。标记后,我发现某些文本带有连字符。这是因为无法适应格式的单词被分解为 2 个由连字符分隔的单词。此 XML 文档还出于另一个原因使用连字符。分隔短句(用于注释)。
我想找出单词之间的那些连字符。我注意到我想要删除的连字符有一个标准模式。例如。
连字符的第一次使用 - (我要查找和替换)
question
会ques-tion
answer
是ans-wer
连字符的另一种用法是 - (未找到)
Pattern matchin - Regex Expressions - ...
所以两者的标准格式是 -
space-space
letter-letter
我如何使用 XQuery 找到所有这些,即第二个...或任何其他方式来找到它们...在巨大的 XML 文件中查找和替换这些...我的上帝..