问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
525 浏览

java - 从图像中的文本创建单词图像

有谁知道任何可以让我分解图像中的文本并为每个单词创建更小的图像的库(最好是 Java,但我会看任何东西)?我已经测试过GOCRtesseract,但我不打算转录文本,并且在许多情况下,例如手写笔记或功能不佳的打字机,文本必须由人类转录。大多数文本是西班牙语的事实也使 OCR 更加困难。我搜索了 stackoverflow 档案,没有找到任何东西。我的问题的目的是在大学里,我们有数十万份非常古老的手写笔记,如果我可以将它们逐字分解成更小的图像,那么我们可以尝试转录和翻译它们。

0 投票
4 回答
1691 浏览

python - 使用python每x行处理一个文件块

我在这里尝试做的是从文件DATA.txt中每隔行间隔y读取z行,然后在该行上执行find函数。即我想跳过前y行;阅读接下来的z行;在刚刚读入的那些行上执行函数find ;跳过接下来的y行;并重复文件的长度(传递到sys.argv[1])。

我在这里的内容给了我很多变量的空白行,我不知道为什么。如果需要,我可以提供函数find但我认为这种方式更简单。

如果有人想提出一种完全不同的做法,只要我了解正在发生的事情,我会很乐意修复现有代码。

编辑:我错过了一些括号,但添加它们并不能解决问题。

0 投票
2 回答
64 浏览

iphone - NSStrings - 基本术语提取

我有两个 NSStrings,我想找到两者共同的词作为术语提取的基本形式......

任何想法如何去做?

罗伊

0 投票
2 回答
82 浏览

python - 提取表达式

我有一个表达式,我想在 python 2.6 中提取它。这是示例:

这将:

我需要一份清单。请帮我一把。谢谢。

0 投票
2 回答
1821 浏览

indexing - 为搜索索引解析 InDesign (.indd) 文件

你们中的任何人都可以帮我解决以下问题:

我有很多 InDesign 文档,我需要能够搜索它们,文本明智。我没有打开这些文件、制作 pdf 文件然后进行搜索的资源。简而言之,我希望能够提取文本上下文并为其编制索引,或者直接为文件本身编制索引。

最后,我会将内容或索引呈现给 SOLR 引擎进行进一步处理。这一切都应该发生在 php/apache/mysql 环境中。

非常感谢您的见解。

0 投票
1 回答
4091 浏览

c# - 仅从文本文件中读取以特定字符串开头的行并将它们显示在表单文本框中。(C#)

我想从文件中读取一些特定信息并在表单应用程序中.txt显示特定行。文件模板如下所示 :TextBox.txt

info1:这里有一些字符...

info2:这里有一些字符...

info3:一些字符

附加信息:类似于 info3 的行数不固定;

我需要的功能是在 a 中插入TextBox与第一列相对应的一组数字(例如 001),然后在另一个文本框中显示文件的标题信息,列标题,然后,仅以引入的数字开头的行不包括其他行。一个好的解决方案应该是什么?
谢谢。

0 投票
3 回答
1180 浏览

vim - 在 Vim 中删除除 '<' 和 '>,' 之间的字符之外的所有内容——从 Gmail “收件人”字段中提取电子邮件地址

我有一个以逗号分隔的电子邮件地址列表,每个实际地址都以联系人姓名(来自 Gmail)开头。这是一个例子:

转换为:

背景信息:我正在尝试将联系人列表粘贴到 webex 邀请中,该邀请只能接受电子邮件地址。

删除除 Vim 中的正则表达式匹配之外的所有内容是相关的,但在这种情况下,所有电子邮件地址都在一行上。

0 投票
1 回答
589 浏览

javascript - 从网页中提取提要

我正在寻找一个代码片段(语言在这里并不重要),它将提取与此页面关联的所有提要(RSS、原子等)。

所以 input isURL和 output list of channels

重要的是完整性,这意味着如果页面关联了一些信息通道,则应该找到它。

我最好询问在 HTML 代码中找到什么以及在哪里找到以涵盖完整性。

谢谢你

0 投票
2 回答
169 浏览

java - 从字符串中提取和删除实体

我想做的是从给定的字符串中提取子字符串。

例如

我想删除多余的单词,例如

如果我有一个包含所有“额外字符串”的哈希表

从给定字符串中删除多余字符串的最佳方法是什么?

我一开始使用正则表达式但它没有用,我也使用了一些实体提取艺术家姓名(回声)但它只适用于艺术家

问题是如果歌曲包含额外的字符串,包含的额外字符串也将被删除。

所以请大家,有什么帮助或建议吗?

谢谢

0 投票
2 回答
3350 浏览

csv - 从多个文本文件中提取特定的数据行,以转换为单个 csv 文件

首先,为我糟糕的编码能力道歉,但是我花了几个小时阅读论坛并给它一个破解,所以我非常感谢任何关于以下问题的帮助:

我有 3 个文本文件,我想从中获取文件名、第 3 行数据、第 5 行和第 7 行并将它们弹出到单个 CSV 中,如下所示:

简单的,嗯?不是这样,因为我的编码“技能”相当缺乏,可以在你的帮助下完成。这是我到目前为止所拥有的:

首先是一个批处理文件(go.bat):

然后手动命令行输入:

因此,如您所见,我为一行文本完成了此操作,但不知道如何将第 3 行和第 5 行附加到输出的末尾。另外,我真正想要的是一个正确的命令行条目,这样我就可以对目录中的所有文本文件执行此操作。我尝试了以下方法,但似乎遗漏了一些东西:

任何身体帮助?

非常感谢!詹姆士