Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在获取一个 PDF 并将其切割成 400 多个部分并将这些单独的部分提供给 Tesseract。这是完美的工作。具有 1、2 或 3 个字符的字段除外。如果它有 4 个或更多,或者 Tesseract 认为有 4 个或更多,它工作正常。
我在GitHub 上使用 CharlesW 的 C# 包装器。
正如 nguyenq 所建议的,更改 PageSegMode 解决了这个问题。我正在使用的包装器.DefaultPageSegMode有一个名为的属性,可以让我解决这个问题。
.DefaultPageSegMode