问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
34230 浏览

python - 提取整个单词

我有大量真实世界的文本,我需要从中提取单词以输入拼写检查器。我想在没有太多噪音的情况下提取尽可能多的有意义的单词。我知道这里有很多正则表达式忍者,所以希望有人可以帮助我。

目前我正在使用'[a-z]+'. 这是一个不错的近似值,但它会拖出很多垃圾。

理想情况下,我想要一些正则表达式(不一定要漂亮或高效)来提取由自然单词分隔符(例如[/-_,.: ]等)分隔的所有字母序列,并忽略任何具有非法边界的字母序列。

但是,我也很高兴能够获得所有不与数字相邻的字母序列。因此,例如'pie21'不会提取'pie',但'http://foo.com'会提取['http', 'foo', 'com']

我尝试lookaheadlookbehind断言,但它们是按字符应用的(例如,当我希望它什么都不re.findall('(?<!\d)[a-z]+(?!\d)', 'pie21')返回时会返回)。'pi'我尝试将 alpha 部分包装为一个术语 ( (?:[a-z]+)),但它没有帮助。

更多细节:数据是一个电子邮件数据库,所以它主要是带有普通数字的简单英语,但偶尔会有像我想完全忽略的垃圾GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA字符串AC7A21C0。我假设任何带有数字的字母顺序都是垃圾。

0 投票
5 回答
4633 浏览

algorithm - 从网站提取正文文本,例如仅提取文章标题和文本,而不是网站中的所有文本

我正在寻找允许从网站提取文本的算法。我的意思不是“剥离 html”,或者数百个允许这样做的库中的任何一个。

例如,对于一篇新闻文章,我想识别标题和所有文本,而不是评论部分等等。

那里有任何算法吗?谢谢!

0 投票
2 回答
2333 浏览

java - 使用 ICEpdf 提取 PDF 页面特定区域中的文本

有没有办法使用 ICEpdf 提取特定区域的文本?我能够提取整个页面,但这不是我想要做的。

(我知道 PDFBox 可以很好地提取页面特定矩形区域中的文本。但是,由于图像渲染在 ICEpdf 中效果更好,我想使用该库。)

0 投票
4 回答
4162 浏览

pdf - 分析pdf文件的格式并提取文本和图像

我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。

我该怎么做呢?是否已经有商业服务/ api可以做到这一点?程序/服务的输入只是文件。

例如输入:http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件将是一个普通的 pdf 文件,而不是一个安全的)

0 投票
1 回答
167 浏览

python - 挖掘数据库以在python中提取文本字段

我有一个数据库,我试图从中提取某些信息。

逻辑结构如下:

GC; 询问

英尺;姓名(需要此字段)

fd; SEQUENCE(需要这个字段)

fd; 顺序

...(更多“fd;”字段)

英尺;姓名(需要此字段)

fd; 序列(只需要第一个 fd)

...(更多 fd;字段)

英尺;姓名(需要此字段)

fd; 序列(只需要第一个 fd)

GC; 另一个查询

这种结构重复了数千次,每个 QUERY 一个。我已将需要提取的字段括起来。我尝试了以下代码,既作为函数又作为片段,但它不起作用。我检查了变量范围是否正确。我需要 mylist 包含与“ft”字段相同数量的条目。使用我的代码,创建了 mylist 但它是一个空列表。我的逻辑错误的任何想法?我正在使用 python 2.6.5

0 投票
2 回答
1266 浏览

php - 提取分隔符之间的文本 - PHP

这是我的第一篇文章。我有一个文本 (.txt) 文件,其中包含来自多个来源的日记条目。我希望按日期、作者、标题等来组织条目。每个条目都用“---”分隔。每个日期都在“|”之后给出。每个作者都在括号中。标题位于条目顶部的括号之前。

所以一个典型的条目看起来像:

到目前为止,这是我的代码:

所以现在我有一个由“---”分隔符分隔的条目数组。接下来我想按作者、标题等拆分数组中的每个字符串......

问题是 preg 函数仅适用于数组,如果每个数组元素都是字符串,这将不起作用。

我知道有几种方法可以解决这个问题,但我似乎无法找到一种适用于我的情况。

0 投票
3 回答
62471 浏览

pdf - 从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本。

谁能帮我吗?

0 投票
23 回答
560462 浏览

php - 从字符串中提取单个(无符号)整数

我想从包含数字和字母的字符串中提取数字,例如:

我想提取数字11

0 投票
3 回答
5137 浏览

php - php中的pdf文本提取器类

php中是否有任何类可以从pdf文件中提取所有文本,以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素,如图像、表格、纯文本、表单元素、图表等。

到目前为止,我在过去两天看到了许多提取文本的课程,但没有人促进完整的文本提取,而不是从 pdf 中提取完整的文本。

我想从给定的 pdf 文件中提取所有文本,即使文本在表​​格等中。

有人知道吗?:)

非常感谢。祝你今天过得愉快 :)

0 投票
4 回答
3943 浏览

vim - 如何使用 Vim 提取匹配正则表达式的文本?

我想用vim从文本中提取一些数据。数据是这样的:

我需要提取的数据包含在:title="(168,72)" 中。
特别是我有兴趣只提取这些坐标。

我虽然关于使用 vim 首先删除title=" .. 之前的所有内容,但我并不是真正的正则表达式大师 .. 所以我问你:如果有人有任何提示:请告诉我 :)