0

我正在制作一个自定义文档比较工具。我正在将 word 文档中的内容与网页内容进行比较。我正在解析网页,只是删除文本并将其与我从 word 文档复制到 JTextarea 的文本进行比较。

我要做的就是比较文本,确保没有拼写错误或遗漏单词。当我解析网页时,我没有得到任何格式,如编号或项目符号列表。我的问题是,当我将 word doc 的内容复制到 jtextarea 时,它会保留所有编号列表、项目符号列表等。

我想要的是采取以下文本示例:

解决方案 1:重新启动网络硬件

如果 Xbox LIVE 性能看起来很慢,请尝试重新启动您的网络硬件。就是这样:

  1. 关闭您的 Xbox 360 控制台和任何网络硬件(例如,您的调制解调器和路由器)。
  2. 等待 30 秒。
  3. 打开调制解调器,然后等待一分钟。

并将其变成:

解决方案 1:重新启动您的网络硬件
如果 Xbox LIVE 性能似乎很慢,请尝试重新启动您的网络硬件。方法如下:
关闭 Xbox 360 主机和任何网络硬件(例如调制解调器和路由器)。
等待 30 秒。
打开调制解调器,然后等待一分钟。

我已经有一个正则表达式来删除所有的空白行,我只是不知道我应该如何处理删除额外的选项卡、列表样式等。有人有什么建议吗?

4

1 回答 1

2

您可以尝试以下启发式方法:

  • 用空格替换所有选项卡(等)(请参阅String.replaceAll()
  • 用空格替换所有空格后跟数字后跟点的行开头(请参阅正则表达式:|^ *\d*\\.|--carret-space-star-backslash-d-backslash-backslash-dot)
  • 用一个空格替换所有空格系列(正则表达式:| +|--space-spaces-plus)(以删除多余的)-将此保留为最后一步

如果您遇到不想要的其他模式,您可以在那里添加任何其他替换逻辑

注意:我|在正则表达式周围添加了以使前导空格更容易看到,但是当您输入代码时它们不是正则表达式的一部分。

于 2012-07-20T13:50:51.247 回答