问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
1664 浏览

php - 如何在php中提取字符串的一部分

我正在使用 preg_replace() 进行一些字符串替换。

这工作得很好,并给出以下结果

但我使用相同的逻辑从以下字符串中提取。

我想从中提取字符串

我目前拥有的正则表达式是:

其中 $metadata 是上面的字符串..

$matches 不返回任何内容....出于某种原因...我该怎么做?提前致谢

0 投票
4 回答
1883 浏览

web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序

我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取物业广告。

0 投票
3 回答
10908 浏览

api - 从 PowerPoint(.ppt 或 .pptx)文件中提取文本?

我目前正在使用 OpenOffice 宏和 pdf2text 程序的组合来提取文本,并希望找到一种更简单、更有效的方法来从 PowerPoint 文件中提取文本。

我尝试使用 Apache POI 库,但运气不佳,在尝试处理我正在查看的文件时遇到了库中的许多异常,并且不想特别筛选库的源代码。

有没有一种简单的方法可以在不使用上述库的情况下做到这一点?

0 投票
10 回答
72300 浏览

c# - 如何在 C# 中从 MS Office 文档中提取文本

我试图使用 C# 从 MS Word(.doc、.docx)、Excel 和 Powerpoint 中提取文本(字符串)。我在哪里可以找到一个免费且简单的 .Net 库来阅读 MS Office 文档?我尝试使用 NPOI,但没有获得有关如何使用 NPOI 的示例。

0 投票
4 回答
452 浏览

pdf - 议会辩论 PDF 的光学字符识别

对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。

问题是这些文件中的大多数都有两列格式:

示例协议 http://sert.homedns.org/img/btp12001.png

我很想阅读您对以下问题的回答:

  1. 在将两列输入 OCR 之前如何拆分它们?
  2. 您推荐哪种商业、开源 OCR 软件或框架,为什么?

请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!

更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。

最好的问候,
Cetin Sert

0 投票
1 回答
2208 浏览

java - 按主题搜索并从维基百科的文章中提取关键字

我正在用 java 做一个项目,我必须在其中处理一个维基百科转储文件。我正在寻找一个库来提取维基百科文章中的关键字......基本上我想阅读维基百科 xml 转储中的每个标签页,并将其与主题和类别列表进行比较,如果正确,选择它并添加我的结果。我对阅读转储或编写维基百科结果不感兴趣,只是我想知道任何能让我在维基百科文章的标题和文本中按主题搜索的库......例如......如果输入是“狗”我想要关于狗的维基百科文章,如果可能的话,狗类别下的任何页面。

是否为通用目的而不是为维基百科指定库并不重要。我需要将 wikitext 作为参数并收到一个关键字列表,包括类别...我发现了一些运行良好的维基百科库,例如Wikipedia-MinerJava Wikipedia Library,但首先我需要安装 mysql 和我想分析文本而不将其保存到数据库中。

任何形式的帮助或建议都会受到欢迎。:)

0 投票
5 回答
6407 浏览

php - 用于提取邮件的正则表达式:地址

我想要一个可以接受一个字符串块的reg exp,并找到与格式匹配的字符串:

对于所有匹配此格式的字符串,它会提取出在mailto:. 有什么想法吗?

这是内部应用程序所需要的,而不是任何垃圾邮件发送者的目的!

0 投票
8 回答
49759 浏览

java - 从 HTML Java 中提取文本

我正在开发一个下载 HTML 页面然后选择一些信息并将其写入另一个文件的程序。

我想提取段落标签之间的信息,但我只能得到段落的一行。我的代码如下;

我试图添加另一个while循环,它会告诉程序继续写入文件,直到该行包含</p>标签,通过说;

但这不起作用。有人可以帮忙吗。

0 投票
2 回答
660 浏览

ocr - OCR 不再是问题了吗?

根据Wikipedia的说法,“拉丁文字、打字文本的准确识别现在被认为是在诸如扫描打印文档等清晰成像的应用中已基本解决的问题。” 但是,它没有给出引用。

我的问题是:这是真的吗?当前的最先进技术是否如此出色以至于 - 对于英文文本的良好扫描 - 没有任何重大改进需要改进?

或者,这个问题的一个不太主观的形式是:现代 OCR 系统在识别英文文本以进行高质量扫描方面的准确度如何?

0 投票
4 回答
913 浏览

c# - 使用 C# 将 PDF 转换为可使用的文本

是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将它付诸实践。此外,如果它提供了一个类来提取图像,那将是一个加号。有什么建议么?提前谢谢。

我还需要能够将它实现到现有的应用程序中。