问题标签 [text-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1088 问题

0 投票

1 回答

1319 浏览

flash - SWF 文件中的 OCR。有可能的？

我需要从 SWF 文件中提取一些文本。有可能的？有没有图书馆可以做到这一点？

如果是，使用哪种编程语言？

2011-02-21T22:56:34.327

0 投票

8 回答

259368 浏览

regex - 如何使用 grep、regex 或 perl 按照模式提取字符串

我有一个看起来像这样的文件：

我需要在后面的引号中提取任何内容name=，即content_analyzer，content_analyzer2和content_analyzer_items。

我在 Linux 机器上执行此操作，因此使用 sed、perl、grep 或 bash 的解决方案很好。

regex perl sed html-parsing text-extraction

2011-02-22T16:34:07.290

0 投票

2 回答

282 浏览

java - Java中的自动电子邮件提取

如何使用 Java 扫描文本文件中的潜在电子邮件地址？

java text-extraction email-address

2011-03-04T07:22:59.310

0 投票

2 回答

641 浏览

java - 字典的数据结构

我有 .rtf 格式的塞尔维亚英语单词，我需要从这个文档中提取它并将它们放入一些数据结构中。我知道使用数据库，但我不知道它是否适合这种情况。例如，我有斜体字，不知道如何将其放入数据库（也许放入标签？）。是否有其他用于存储格式化文本（粗体和斜体）的数据结构？

java database data-structures text-extraction

2011-03-05T01:13:13.707

0 投票

1 回答

956 浏览

tex - 使用 Tika 从 .tex 文件中提取文本

如何.tex使用 Apache Tika 从文件中提取文本？示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型，application/x-tex但不会从中提取任何内容。

我试过命令

以及以下代码片段：

tex text-extraction apache-tika

2011-03-15T07:01:14.860

0 投票

3 回答

18901 浏览

regex - 如何使用 RegEx 从 HTML 中提取值？

给定以下 HTML：

我想获取<span>元素内的值。我还想获取元素class属性的值。<span>

理想情况下，我可以通过一个函数运行一些 HTML，然后取回一个提取实体的字典（基于<span>上面定义的解析）。

上面的代码是一个较大的 HTML 源文件的片段，它无法与 XML 解析器相匹配。所以我正在寻找一个可能的正则表达式来帮助提取感兴趣的信息。

regex html-content-extraction text-extraction

2011-03-16T15:22:45.473

0 投票

3 回答

2455 浏览

regex - 帮助在类似 c 的语言中提取匹配大括号之间的文本块

我有一些我为 HDF5 文件格式制作的文档，它是用 GraphViz 点语言编写的。（这是一种带有很多花括号的类 C 语言。）这个主文件包含许多这样的元素：

我想根据 clustername 提取这个文本块。（我想单独创建这些子图的图，而不是包含所有内容的超大图。每个子图簇都是一个单独的 HDF5 文件，通过 HDF5 外部软链接连接。）

应该有一种方法可以提取这种所需的文本块（在某些特定文本模式之后匹配第一个 { 并在多行嵌套的结束 } 的练习。这似乎应该是一个相对常见的任务，因为它很普遍C 和类 C 语言。

在我看来，实现这一目标的最佳候选工具是：

awk

Python

gvpr - 随 graphviz 提供的图形流编辑器（但这对其他人没有帮助，比如 C 程序员有同样的问题，而且网络上几乎没有例子，而且语法很混乱）

sed

目前我维护主文件，然后使用 Mx ediff-regions-linewise 更新 Emacs 中的每个派生文件，但我需要一个自动化的（所以我可以使用 Make 来构建文档文件）和生成派生文件的强大方法。我使用过的唯一上述工具是sed，但由于模式很复杂并且跨越多行，我认为像 awk 或 python 这样的工具可能更适合这项任务。

事实上，我尝试了一种类似于 awk 中的引用计数的技术，但我在理解 awk 的一些更微妙的行为时遇到了问题，并且过去只真正使用过 awk 单行。

非常感谢您提供的任何帮助。-Z

regex graphviz text-extraction

2011-03-30T20:25:07.153

0 投票

1 回答

3319 浏览

java - 从未知内容类型的文档中提取文本

application/octet-streamApache Tika中是否有类型解析器？我想这是一个不可解析的流。

我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file); 足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream是默认值。如果我有机会从属于其中一种类型的文档中提取文本，但 contentType 检测器没有检测到它们的类型。

除了将文档返回给用户告诉他它不受支持的格式之外，我还应该尝试什么。

或者结果内容类型真的是application/octet-stream我们无法阅读的信号吗？还是“你必须想办法解决这个问题”？

java content-type text-extraction apache-tika

2011-03-31T23:22:29.150

0 投票

7 回答

76827 浏览

unix - 如何从 .doc 和 .docx 文件中提取纯文本？

任何人都知道他们可以推荐的任何东西，以便从 a .docor中提取纯文本.docx？

我找到了这个- 想知道是否还有其他建议？

unix extract docx doc text-extraction

2011-04-15T03:12:57.213

0 投票

2 回答

1031 浏览

parsing - 从网页中提取数据

我正在做一个需要从网页中提取数据的学校项目。准确地说，我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。

我知道用正则表达式解析 html 是从中提取文本的最差方法。

额外信息：

我需要它来计算文本文档之间的相似性。

任何帮助，将不胜感激。谢谢

parsing html-parsing html-content-extraction text-extraction

2011-04-19T02:32:49.317

1 2 3 4 5 6 7 8 9 10

问题标签 [text-extraction]

Reference