我正在做一个项目,我在其中阅读了大量具有相似标题的文档。标题以相同的单词开头和结尾,但开头和结尾之间的单词可能会有所不同。我正在尝试使用 Pattern 和 Matcher 来查找这些,但遇到了麻烦。这是我的代码:
Pattern docHeader = Pattern.compile("HEADER[ ]*:[.\\n\\t ]*header end");
所以标题看起来大致是这样的:
HEADER:
random junk
random junk
header end
Document information start.
我试图在开始擦洗文本之前删除所有标题以节省后端时间。但它永远找不到我的模式。建议?