问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
417454 浏览

python - 用于将 PDF 转换为文本的 Python 模块

是否有任何 python 模块可以将 PDF 文件转换为文本?我尝试了在 Activestate 中找到的一段代码,它使用 pypdf,但生成的文本之间没有空格,而且没有用。

0 投票
5 回答
9491 浏览

pdf - 使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么?

有没有一个很好的库可以从 PDF 中提取文本?如果需要,我愿意为此付出代价。

与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的,我还需要能够将页面与 PDF 分开。

这个问题有一些有趣的东西,尤其是pdftotext ,但如果可以的话,我想避免调用外部命令行应用程序。

0 投票
11 回答
54461 浏览

html - 从 HTML 中提取文本的正则表达式

我想从一般 HTML 页面中提取所有文本(显示或不显示)。

我想删除

  • 任何 HTML 标签
  • 任何 javascript
  • 任何 CSS 样式

是否有一个正则表达式(一个或多个)可以实现这一点?

0 投票
3 回答
2020 浏览

java - 从网页中剥离 HTML 并计算词频?

在 Groovy 中,如何抓取网页并移除 HTML 标签等,只留下文档的文本?我希望将结果转储到一个集合中,以便我可以构建一个词频计数器。

最后,让我再次提一下,我想在 Groovy 中执行此操作。

0 投票
5 回答
1921 浏览

html - 从 HTML 文档中抓取最大的文本块

我正在研究一种算法,该算法将在给定 HTML 文件的情况下尝试挑选出它认为最有可能包含页面大部分内容文本的父元素。例如,它将选择以下 HTML 中的 div“内容”:

我想出了一些想法,比如遍历 HTML 文档树到它的叶子,将文本的长度相加,并且只有在父级给我们的内容比子级多的情况下才能查看父级的其他文本。

有没有人尝试过这样的事情,或者知道可以应用的算法?它不必是可靠的,但只要它能够猜出包含大部分页面内容文本的容器(例如,对于文章或博客文章),那就太棒了。

0 投票
2 回答
2390 浏览

php - 提取出现在几个禁止字符之一之前的字符

一旦遇到几个不需要的字符之一,我想丢弃字符串中的所有剩余字符。

一旦遇到列入黑名单的字符,就应该返回该点之前的字符串。

例如,如果我有一个数组:

我将如何通过以下字符串...

...最终得到:

0 投票
2 回答
7984 浏览

exchange-server - 从电子邮件(或数千封电子邮件)中提取数据 [基于 Exchange]

祝福他们,我的营销部门决定在人们通过网页进入的地方进行抽奖。这很好,但信息不会存储到任何类型的数据库中,而是作为电子邮件发送到交换邮箱。伟大的。

我的挑战是从这些电子邮件中提取条目(和营销信息)并将它们存储在更有用的地方,比如平面文件或 CSV。唯一的优点是电子邮件具有高度一致的格式。

我确信我可以花时间将所有电子邮件保存到文件中,然后编写一个应用程序来处理它们,但我希望有一个更优雅的解决方案。我可以以编程方式访问交换邮箱,阅读所有电子邮件,然后保存这些数据吗?

0 投票
6 回答
3624 浏览

html - HTML下载和文本提取

下载 URL 列表并仅提取文本内容的好工具或工具集是什么?蜘蛛不是必需的,但可以控制下载文件名,线程将是一个额外的好处。

平台是linux。

0 投票
4 回答
408 浏览

php - 解析/拆分正斜杠分隔的字符串

这更像是一个通用的正则表达式问题,而不是特定于 PHP 的问题。

我得到了不同的字符串,可能看起来像:

A/B/PA ID U/C/D

我正在尝试使用以下方法提取中间斜杠中包含空格(“/PA ID U”)的段:

preg_match('/(\/PA .+)(\/.+|$)/', $string, $matches);

然而,我得到的不是“/PA ID U”,而是“/PA ID U/C/D”。

如何使它在最后一组中优先匹配“/.+”而不是“$”?


补充笔记:

我需要最后一组来匹配另一个“/somethingsomthing”或“”,因为字符串变化很大。如果我只匹配“/.+”,如果它位于行尾,例如“A/B/PA ID U”,我将无法获得“/PA ID U”。

基本上,我需要能够像这样提取特定的段:

鉴于: "A/B/PA ID U/PA ID U/C/D"

提炼: (A), (B), (PA ID U), (PA ID U), (C), (D)


[更新]

我试图避免使用split()orexplode()因为这意味着我必须单独匹配“PA ID U”模式。除了仅提取斜杠分隔的段之外,我还需要验证子字符串是否与特定模式匹配。

0 投票
4 回答
143 浏览

php - 解析格式化文本并提取两个值

如何在 PHP 中使用正则表达式从这种字符串中获取百分比和文件大小?

问题是我使用这样的函数得到这个字符串print_r()

上面的输出是这样的:

我确定我需要使用类似preg_match()但不确定如何对数组执行此操作以及如何引用字符串。正则表达式需要放在循环内。