问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1319 浏览

flash - SWF 文件中的 OCR。有可能的?

我需要从 SWF 文件中提取一些文本。有可能的?有没有图书馆可以做到这一点?

如果是,使用哪种编程语言?

0 投票
8 回答
259368 浏览

regex - 如何使用 grep、regex 或 perl 按照模式提取字符串

我有一个看起来像这样的文件:

我需要在后面的引号中提取任何内容name=,即content_analyzercontent_analyzer2content_analyzer_items

我在 Linux 机器上执行此操作,因此使用 sed、perl、grep 或 bash 的解决方案很好。

0 投票
2 回答
282 浏览

java - Java中的自动电子邮件提取

如何使用 Java 扫描文本文件中的潜在电子邮件地址?

0 投票
2 回答
641 浏览

java - 字典的数据结构

我有 .rtf 格式的塞尔维亚英语单词,我需要从这个文档中提取它并将它们放入一些数据结构中。我知道使用数据库,但我不知道它是否适合这种情况。例如,我有斜体字,不知道如何将其放入数据库(也许放入标签?)。是否有其他用于存储格式化文本(粗体和斜体)的数据结构?

0 投票
1 回答
956 浏览

tex - 使用 Tika 从 .tex 文件中提取文本

如何.tex使用 Apache Tika 从文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型,application/x-tex但不会从中提取任何内容。

我试过命令

以及以下代码片段:

0 投票
3 回答
18901 浏览

regex - 如何使用 RegEx 从 HTML 中提取值?

给定以下 HTML:

我想获取<span>元素内的值。我还想获取元素class属性的值。<span>

理想情况下,我可以通过一个函数运行一些 HTML,然后取回一个提取实体的字典(基于<span>上面定义的解析)。

上面的代码是一个较大的 HTML 源文件的片段,它无法与 XML 解析器相匹配。所以我正在寻找一个可能的正则表达式来帮助提取感兴趣的信息。

0 投票
3 回答
2455 浏览

regex - 帮助在类似 c 的语言中提取匹配大括号之间的文本块

我有一些我为 HDF5 文件格式制作的文档,它是用 GraphViz 点语言编写的。(这是一种带有很多花括号的类 C 语言。)这个主文件包含许多这样的元素:

我想根据 clustername 提取这个文本块。(我想单独创建这些子图的图,而不是包含所有内容的超大图。每个子图簇都是一个单独的 HDF5 文件,通过 HDF5 外部软链接连接。)

应该有一种方法可以提取这种所需的文本块(在某些特定文本模式之后匹配第一个 { 并在多行嵌套的结束 } 的练习。这似乎应该是一个相对常见的任务,因为它很普遍C 和类 C 语言。

在我看来,实现这一目标的最佳候选工具是:

awk

Python

gvpr - 随 graphviz 提供的图形流编辑器(但这对其他人没有帮助,比如 C 程序员有同样的问题,而且网络上几乎没有例子,而且语法很混乱)

sed

目前我维护主文件,然后使用 Mx ediff-regions-linewise 更新 Emacs 中的每个派生文件,但我需要一个自动化的(所以我可以使用 Make 来构建文档文件)和生成派生文件的强大方法。我使用过的唯一上述工具是sed,但由于模式很复杂并且跨越多行,我认为像 awk 或 python 这样的工具可能更适合这项任务。

事实上,我尝试了一种类似于 awk 中的引用计数的技术,但我在理解 awk 的一些更微妙的行为时遇到了问题,并且过去只真正使用过 awk 单行。

非常感谢您提供的任何帮助。-Z

0 投票
1 回答
3319 浏览

java - 从未知内容类型的文档中提取文本

application/octet-streamApache Tika中是否有类型解析器?我想这是一个不可解析的流。

我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file); 足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream是默认值。如果我有机会从属于其中一种类型的文档中提取文本,但 contentType 检测器没有检测到它们的类型。

除了将文档返回给用户告诉他它不受支持的格式之外,我还应该尝试什么。

或者结果内容类型真的是application/octet-stream我们无法阅读的信号吗?还是“你必须想办法解决这个问题”?

0 投票
7 回答
76827 浏览

unix - 如何从 .doc 和 .docx 文件中提取纯文本?

任何人都知道他们可以推荐的任何东西,以便从 a .docor中提取纯文本.docx

我找到了这个- 想知道是否还有其他建议?

0 投票
2 回答
1031 浏览

parsing - 从网页中提取数据

我正在做一个需要从网页中提取数据的学校项目。准确地说,我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。

我知道用正则表达式解析 html 是从中提取文本的最差方法。

额外信息:

我需要它来计算文本文档之间的相似性。

任何帮助,将不胜感激。谢谢