2

我已经解决了几个相关的问题,但它们没有包含我正在寻找的答案。所以,这是我的问题:

我的工作场所有几个 Web 应用程序,它们是使用不同的框架编写的,而且作者早就去要求更新功能了。因此,我每天都必须通过相同的艰苦操作序列才能获得,这相当于几千字节的文件大小。

我尝试解析页面源代码,但作者的编程技术无处不在。有些人甚至故意隐藏代码以不让数据显示为文本,并且没有理由这样做,因为他们编写的代码是公司资产。长话短说,我意识到如果我可以复制和粘贴这些页面的文本内容,我可以比解析页面源来获取文本更容易处理这些数据(这有时是完全不可能的)

所以,我现在正在寻找一个浏览器插件(在 windows 或 linux 环境中)或 windows 或 linux 上基于文本的等效工具,它们将在调用时加载这些页面并将屏幕上的文本保存到文件中。

尽管我多么努力,我还是空手而归。

我不想使用第三方屏幕抓取网站的服务,因为数据是公司机密,外部各方无法访问。一切都必须在客户端发生,因为我无法访问这些应用程序正在运行的服务器(主要是 Windows 前端的 IIS 和后端的 oracle db。正如我之前解释的那样,中间层是任何人的狂野猜想,从原生 oracle 应用程序到 weblogic 到 tomcat 以及一些内部开发的 java/javascript 东西。

感谢您提前提供的所有帮助

4

3 回答 3

1

在寻找了一年多的答案之后,我意识到,只要我使用 Windows,它的现代版本,即 autohotkey 是我的救星。

我打开网页,最大化它,放置我的光标(mousemove,x,y)然后左键单击(mouseclick,L)然后发送 ctrl-A,然后是 ctrl-C。

瞧!一切都在剪贴板中。然后我激活我的 unix 会话(winactivate PuTTY)并发送适当的按键命令来启动我选择的编辑器(即 vi),最后发送一个 shift-Insert 以将剪贴板粘贴到我的文档中。然后保存并退出当然。

作为额外的奖励,在我的文档被保存后,我可以调用我选择的脚本来解析这个文件并将我感兴趣的部分返回给我。

我知道这不是防弹的,但就我的目的而言,它在很大程度上有帮助。事实上,我可以用这种方法做任何我想做的事情。

于 2014-02-19T17:40:59.270 回答
0

像这样的东西怎么样:http: //www.nirsoft.net/utils/htmlastext.html 将 HTML 页面转换为文本的免费软件

于 2012-11-14T18:41:48.790 回答
0

任何链接,lynx 或 w3m 都会做你想做的事,它们是文本浏览器,你可以从网页中转储文本,例如:

w3m -dump http://www.google.com > g.txt
于 2012-11-15T23:56:50.587 回答