问题标签 [text-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1088 问题

0 投票

4 回答

34230 浏览

python - 提取整个单词

我有大量真实世界的文本，我需要从中提取单词以输入拼写检查器。我想在没有太多噪音的情况下提取尽可能多的有意义的单词。我知道这里有很多正则表达式忍者，所以希望有人可以帮助我。

目前我正在使用'[a-z]+'. 这是一个不错的近似值，但它会拖出很多垃圾。

理想情况下，我想要一些正则表达式（不一定要漂亮或高效）来提取由自然单词分隔符（例如[/-_,.: ]等）分隔的所有字母序列，并忽略任何具有非法边界的字母序列。

但是，我也很高兴能够获得所有不与数字相邻的字母序列。因此，例如'pie21'不会提取'pie'，但'http://foo.com'会提取['http', 'foo', 'com']。

我尝试lookahead了lookbehind断言，但它们是按字符应用的（例如，当我希望它什么都不re.findall('(?<!\d)[a-z]+(?!\d)', 'pie21')返回时会返回）。'pi'我尝试将 alpha 部分包装为一个术语 ( (?:[a-z]+))，但它没有帮助。

更多细节：数据是一个电子邮件数据库，所以它主要是带有普通数字的简单英语，但偶尔会有像我想完全忽略的垃圾GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA字符串AC7A21C0。我假设任何带有数字的字母顺序都是垃圾。

2011-04-19T14:22:12.747

0 投票

5 回答

4633 浏览

algorithm - 从网站提取正文文本，例如仅提取文章标题和文本，而不是网站中的所有文本

我正在寻找允许从网站提取文本的算法。我的意思不是“剥离 html”，或者数百个允许这样做的库中的任何一个。

例如，对于一篇新闻文章，我想识别标题和所有文本，而不是评论部分等等。

那里有任何算法吗？谢谢！

algorithm text web-scraping text-extraction

2011-04-21T15:02:05.313

0 投票

2 回答

2333 浏览

java - 使用 ICEpdf 提取 PDF 页面特定区域中的文本

有没有办法使用 ICEpdf 提取特定区域的文本？我能够提取整个页面，但这不是我想要做的。

（我知道 PDFBox 可以很好地提取页面特定矩形区域中的文本。但是，由于图像渲染在 ICEpdf 中效果更好，我想使用该库。）

java pdf extraction text-extraction icepdf

2011-05-02T08:24:32.550

0 投票

4 回答

4162 浏览

pdf - 分析pdf文件的格式并提取文本和图像

我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置，文本提取（尽可能）并分开放置。

我该怎么做呢？是否已经有商业服务/ api可以做到这一点？程序/服务的输入只是文件。

例如输入：http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

（实际文件将是一个普通的 pdf 文件，而不是一个安全的）

pdf text-extraction

2011-05-04T05:54:54.903

0 投票

1 回答

167 浏览

python - 挖掘数据库以在python中提取文本字段

我有一个数据库，我试图从中提取某些信息。

逻辑结构如下：

GC; 询问

英尺；姓名（需要此字段）

fd; SEQUENCE（需要这个字段）

fd; 顺序

...（更多“fd;”字段）

英尺；姓名（需要此字段）

fd; 序列（只需要第一个 fd）

...（更多 fd；字段）

英尺；姓名（需要此字段）

fd; 序列（只需要第一个 fd）

GC; 另一个查询

这种结构重复了数千次，每个 QUERY 一个。我已将需要提取的字段括起来。我尝试了以下代码，既作为函数又作为片段，但它不起作用。我检查了变量范围是否正确。我需要 mylist 包含与“ft”字段相同数量的条目。使用我的代码，创建了 mylist 但它是一个空列表。我的逻辑错误的任何想法？我正在使用 python 2.6.5

python text-extraction

2011-05-19T10:41:03.743

0 投票

2 回答

1266 浏览

php - 提取分隔符之间的文本 - PHP

这是我的第一篇文章。我有一个文本 (.txt) 文件，其中包含来自多个来源的日记条目。我希望按日期、作者、标题等来组织条目。每个条目都用“---”分隔。每个日期都在“|”之后给出。每个作者都在括号中。标题位于条目顶部的括号之前。

所以一个典型的条目看起来像：

到目前为止，这是我的代码：

所以现在我有一个由“---”分隔符分隔的条目数组。接下来我想按作者、标题等拆分数组中的每个字符串......

问题是 preg 函数仅适用于数组，如果每个数组元素都是字符串，这将不起作用。

我知道有几种方法可以解决这个问题，但我似乎无法找到一种适用于我的情况。

php arrays delimiter text-extraction

2011-05-26T17:14:32.940

0 投票

3 回答

62471 浏览

pdf - 从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分（使用坐标）中提取文本。

谁能帮我吗？

pdf ghostscript text-extraction

2011-05-31T11:59:39.147

0 投票

23 回答

560462 浏览

php - 从字符串中提取单个（无符号）整数

我想从包含数字和字母的字符串中提取数字，例如：

我想提取数字11。

php string integer text-extraction

2011-06-08T11:53:56.160

0 投票

3 回答

5137 浏览

php - php中的pdf文本提取器类

php中是否有任何类可以从pdf文件中提取所有文本，以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素，如图像、表格、纯文本、表单元素、图表等。

到目前为止，我在过去两天看到了许多提取文本的课程，但没有人促进完整的文本提取，而不是从 pdf 中提取完整的文本。

我想从给定的 pdf 文件中提取所有文本，即使文本在表格等中。

有人知道吗？:)

非常感谢。祝你今天过得愉快：）

php pdf text-extraction

2011-06-29T13:04:18.090

0 投票

4 回答

3943 浏览

vim - 如何使用 Vim 提取匹配正则表达式的文本？

我想用vim从文本中提取一些数据。数据是这样的：

我需要提取的数据包含在：title="(168,72)" 中。
特别是我有兴趣只提取这些坐标。

我虽然关于使用 vim 首先删除title=" .. 之前的所有内容，但我并不是真正的正则表达式大师 .. 所以我问你：如果有人有任何提示：请告诉我 :)

vim text extract text-extraction

2011-07-03T18:44:05.393

1 2 3 4 5 6 7 8 9 10

问题标签 [text-extraction]

Reference