我正在做一个研究项目。场景是这样的。
我正在截取桌面的屏幕截图,然后使用 API 对其进行处理以获取桌面上某个文本的位置。例如,假设我在桌面上打开了浏览器并且我在 stackoverflow 上。现在我想搜索截图上的标志stackoverflow的位置。然后我想模拟点击它。我使用的是Java平台。
现在我有两个问题:
1)是否有任何免费的 API(OCR)可以用来处理屏幕截图以获取文本位置(或者可以通过一些技巧来完成)并给出良好的结果。
或者您可以建议我使用的任何方式(而不是截取屏幕截图并对其进行处理)来获取屏幕上任何文本的位置。
2)如何使用后台程序运行的代码模拟屏幕上的点击(我的意思是我已经在 Swing 和其他语言 UI 中完成了它,但这次不同,因为现在我想点击屏幕。