问题标签 [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 提取整个单词
我有大量真实世界的文本,我需要从中提取单词以输入拼写检查器。我想在没有太多噪音的情况下提取尽可能多的有意义的单词。我知道这里有很多正则表达式忍者,所以希望有人可以帮助我。
目前我正在使用'[a-z]+'
. 这是一个不错的近似值,但它会拖出很多垃圾。
理想情况下,我想要一些正则表达式(不一定要漂亮或高效)来提取由自然单词分隔符(例如[/-_,.: ]
等)分隔的所有字母序列,并忽略任何具有非法边界的字母序列。
但是,我也很高兴能够获得所有不与数字相邻的字母序列。因此,例如'pie21'
不会提取'pie'
,但'http://foo.com'
会提取['http', 'foo', 'com']
。
我尝试lookahead
了lookbehind
断言,但它们是按字符应用的(例如,当我希望它什么都不re.findall('(?<!\d)[a-z]+(?!\d)', 'pie21')
返回时会返回)。'pi'
我尝试将 alpha 部分包装为一个术语 ( (?:[a-z]+)
),但它没有帮助。
更多细节:数据是一个电子邮件数据库,所以它主要是带有普通数字的简单英语,但偶尔会有像我想完全忽略的垃圾GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA
字符串AC7A21C0
。我假设任何带有数字的字母顺序都是垃圾。
algorithm - 从网站提取正文文本,例如仅提取文章标题和文本,而不是网站中的所有文本
我正在寻找允许从网站提取文本的算法。我的意思不是“剥离 html”,或者数百个允许这样做的库中的任何一个。
例如,对于一篇新闻文章,我想识别标题和所有文本,而不是评论部分等等。
那里有任何算法吗?谢谢!
java - 使用 ICEpdf 提取 PDF 页面特定区域中的文本
有没有办法使用 ICEpdf 提取特定区域的文本?我能够提取整个页面,但这不是我想要做的。
(我知道 PDFBox 可以很好地提取页面特定矩形区域中的文本。但是,由于图像渲染在 ICEpdf 中效果更好,我想使用该库。)
pdf - 分析pdf文件的格式并提取文本和图像
我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。
我该怎么做呢?是否已经有商业服务/ api可以做到这一点?程序/服务的输入只是文件。
例如输入:http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件将是一个普通的 pdf 文件,而不是一个安全的)
python - 挖掘数据库以在python中提取文本字段
我有一个数据库,我试图从中提取某些信息。
逻辑结构如下:
GC; 询问
英尺;姓名(需要此字段)
fd; SEQUENCE(需要这个字段)
fd; 顺序
...(更多“fd;”字段)
英尺;姓名(需要此字段)
fd; 序列(只需要第一个 fd)
...(更多 fd;字段)
英尺;姓名(需要此字段)
fd; 序列(只需要第一个 fd)
GC; 另一个查询
这种结构重复了数千次,每个 QUERY 一个。我已将需要提取的字段括起来。我尝试了以下代码,既作为函数又作为片段,但它不起作用。我检查了变量范围是否正确。我需要 mylist 包含与“ft”字段相同数量的条目。使用我的代码,创建了 mylist 但它是一个空列表。我的逻辑错误的任何想法?我正在使用 python 2.6.5
php - 提取分隔符之间的文本 - PHP
这是我的第一篇文章。我有一个文本 (.txt) 文件,其中包含来自多个来源的日记条目。我希望按日期、作者、标题等来组织条目。每个条目都用“---”分隔。每个日期都在“|”之后给出。每个作者都在括号中。标题位于条目顶部的括号之前。
所以一个典型的条目看起来像:
到目前为止,这是我的代码:
所以现在我有一个由“---”分隔符分隔的条目数组。接下来我想按作者、标题等拆分数组中的每个字符串......
问题是 preg 函数仅适用于数组,如果每个数组元素都是字符串,这将不起作用。
我知道有几种方法可以解决这个问题,但我似乎无法找到一种适用于我的情况。
pdf - 从给定坐标提取 PDF 文本
我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本。
谁能帮我吗?
php - 从字符串中提取单个(无符号)整数
我想从包含数字和字母的字符串中提取数字,例如:
我想提取数字11
。
php - php中的pdf文本提取器类
php中是否有任何类可以从pdf文件中提取所有文本,以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素,如图像、表格、纯文本、表单元素、图表等。
到目前为止,我在过去两天看到了许多提取文本的课程,但没有人促进完整的文本提取,而不是从 pdf 中提取完整的文本。
我想从给定的 pdf 文件中提取所有文本,即使文本在表格等中。
有人知道吗?:)
非常感谢。祝你今天过得愉快 :)
vim - 如何使用 Vim 提取匹配正则表达式的文本?
我想用vim从文本中提取一些数据。数据是这样的:
我需要提取的数据包含在:title="(168,72)" 中。
特别是我有兴趣只提取这些坐标。
我虽然关于使用 vim 首先删除title=" .. 之前的所有内容,但我并不是真正的正则表达式大师 .. 所以我问你:如果有人有任何提示:请告诉我 :)