java - HTML 解析和映射

翻译自：https://stackoverflow.com/questions/10172428 2012-04-16T10:28:45.693

90 次

我打算构建一些类似翻译的 Web 应用程序，其中用户查看 html 页面（我从网上收集并离线存储在服务器端），然后用户需要通过选择与此 html 中的文本进行交互字符的一些子集（要求进行类似翻译的操作）..

所以这里的过程分为3部分：
- 从html文件中提取纯文本
- 纯文本会在服务器上进行预处理并离线存储
- 当用户在html中在线选择一个字符串时，我需要识别我已经提取并离线存储的纯文本中的映射。

对于纯文本提取，我使用 jsoup。
而且我已经对纯文件进行了预处理..
关于映射部分和识别用户选择（或单击）的文本的任何想法？

[在 Java、Apache-Tomcat、JavaScript、Linux 上工作]

0 回答 0