html - Tesseract-Job：如何解析图像以从中获取信息

Question

早上好。

首先。这是我见过的最令人印象深刻的社区！

好几天我都在思考三折工作

一个。得到 b. 解析 C. 存储多页。

两天前，我认为获取页面将是主要任务。不，事实并非如此——我猜解析器工作将是一项艰巨的任务。打算解析的每个页面都是一个 png 图像。

所以问题是 - 在得到所有这些之后。如何解析它们！？这似乎是问题所在。猜猜那里有一些 perl 模块 - 可以帮助做到这一点......

好吧 - 我认为这项工作只能通过嵌入一些 OCR 来完成！问题：这里是否有一个 perl 模块可以用来支持这个任务：

顺便说一句：查看结果页面。

看一张图片

顺便说一句；：正如我认为的那样，我可以在 Id= 0 和 Id= 100000 之间的某个范围内找到所有 790 个结果页，我想，我可以使用循环：

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder. ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579&InterfaceLanguage=1&Type=Html

我以为我可以采用 Perl 方式，但我不太确定：我试图在具有不同查询参数的相同 URL [见下文] 上使用 LWP::UserAgent，我想知道 LWP::UserAgent 是否提供我们循环查询参数的方式？我不确定 LWP::UserAgent 是否有办法让我们做到这一点。嗯 - 我有时听说使用机械化更容易。但是真的容易吗！？

但是——坦率地说；第一个任务“获取所有页面并不是很困难 - 如果我们将此任务与解析进行比较......这怎么做！？

任何想法 - 建议 -

期待收到你的回复...

零

score 1 · Accepted Answer

你不需要 Perl 模块，你只需要system函数。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

您可能需要预处理图像以帮助 Tesseract，例如使用 ImageMagick，例如：

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

html - Tesseract-Job：如何解析图像以从中获取信息

1 回答 1

Related

Reference