问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3542 浏览

ruby - 使用 Ruby 从文本中解析日期

我试图弄清楚如何使用 Ruby 从非结构化文本中提取日期。

例如,我想从这个字符串中解析日期“将不考虑 2010 年 2 月 1 日午夜 (EST) 午夜 12:00 之后开始的应用程序”。

有什么建议么?

0 投票
4 回答
62455 浏览

nlp - 如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项——来自 MySQL 数据库的原始 HTML。我想在这些条目中找到最常见的短语(不是单个最常见的短语,理想情况下,不强制逐字匹配)。

我的示例是 Yelp.com 上的任何评论,它显示了来自给定餐厅的数百条评论的 3 个片段,格式如下:

“试试汉堡包”(44 条评论)

例如,本页的“回顾重点”部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了 NLTK 并且我已经玩过它了一点,但老实说,我对这些选项感到不知所措。这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案。

0 投票
1 回答
146 浏览

windows - 提取窗口内容

如果这是基于文本,或者至少是与该窗口关联的文件路径,我需要提取窗口内容。迄今为止,我考虑过: 1. win32api 2. 3rd 方库 3. 包装类

但是,我对解决方案并不满意。那么有什么想法可以以一种干净的方式完成吗?

0 投票
5 回答
547 浏览

python - 在python中提取字符串

基本上,我想从文本文件中提取字符串“AAA”、“BBB”、“CCC”、“DDD”......

如果我这样做,我想要类似的东西:-

数据 = foo("file.txt")

我得到: -

数据 = ['AAA','BBB','CCC','DDD']

最好的方法是什么?我的文件不大...

基本上,我想从这个文件中提取“剩余的上传数据传输” HTML 中看起来像这样

0 投票
0 回答
254 浏览

email - 是否有“通过电子邮件回复”脚本?

Posterous 允许您通过电子邮件发布大量对象。我们希望允许用户回复我们发送给他们的电子邮件,并提取内容以在某处使用。

最有效的方法是什么?

0 投票
1 回答
77 浏览

javascript - 有没有办法从 Chrome 中的 JavaScript 对话框中提取消息?

我一直在开发用于在 Chrome 中进行自动化测试的扩展,但遇到了 JavaScript 对话框的一个晦涩问题。对话框中显示的消息无法轻松检索/复制。我使用了 GetWindowText 和 InternalGetWindowText 函数,但它们只返回对话框的标题和按钮的文本,而不是实际的消息本身。

我什至查看了从表单中提取文本的程序,但没有运气。那么有没有人知道从 Chrome 中的这些 JavaScript 对话框中检索文本的方法?

0 投票
2 回答
193 浏览

python - 我应该如何提取 % 分隔标签

我想从文件中获取并仅在 python 中将%tagname%它们复制到字典中。tagname

0 投票
2 回答
13859 浏览

c++ - 使用 Poppler (C++) 从 PDF 中提取文本

我试图通过 Poppler 及其(缺乏)文档来解决问题。

我想做的是一件非常简单的事情:打开一个 PDF 文件并阅读其中的文本。然后我将处理文本,但这并不重要。

所以......我看到了这个poppler_page_get_text函数,它有点工作,但我必须指定一个选择矩形,这不是很方便。不是只有一个非常简单的函数可以按顺序输出 PDF 文本(可能是逐行输出?)。

0 投票
2 回答
4476 浏览

twitter - 从小文本内容(如推文)生成标签

我之前已经问过一个类似的问题,但我注意到我有很大的限制:我正在处理诸如用户推文之类的小型文本集以生成标签(关键字)。

似乎已接受的建议(逐点互信息算法)旨在处理更大的文档。

有了这个约束(处理少量文本),我如何生成标签?

问候

0 投票
4 回答
3295 浏览

text-extraction - 访问 Adob​​e InDesign 文件

我需要一些指导来解决以下问题:

我有很多 InDesign 文件,我必须设置一个进程来跟踪某个段落或文本块是否在文件的不同版本之间发生了变化。如果文本块已更改,我想以“便携式”格式(html、pdf、txt)提取该文本块。

  1. 是否有 Adob​​e 产品可以做到这一点?
  2. 是否有任何公共 API 可以访问 InDesign 文件?
  3. 是否可以将 InDesign 导出为 html ?