我打算构建一些类似翻译的 Web 应用程序,其中用户查看 html 页面(我从网上收集并离线存储在服务器端),然后用户需要通过选择与此 html 中的文本进行交互字符的一些子集(要求进行类似翻译的操作)..
所以这里的过程分为3部分:
- 从html文件中提取纯文本
- 纯文本会在服务器上进行预处理并离线存储
- 当用户在html中在线选择一个字符串时,我需要识别我已经提取并离线存储的纯文本中的映射。
对于纯文本提取,我使用 jsoup。
而且我已经对纯文件进行了预处理..
关于映射部分和识别用户选择(或单击)的文本的任何想法?
[在 Java、Apache-Tomcat、JavaScript、Linux 上工作]