问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1975 浏览

html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在爬取新闻网站,想提取新闻标题、新闻摘要(第一段)等

我插入了 webkit 解析器代码,以轻松地将网页作为树导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法,但我的最终文本中仍然有些垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇,即 50%。错误如

你可以吗

  1. 建议提取纯内容的替代策略,

  2. 学习自然语言处理是否有助于从这些文章中提取正确的摘要?

  3. 您将如何解决上述问题?

  4. 这些研究论文是否相同?

问候

安库尔古普塔

0 投票
2 回答
6072 浏览

java - 有没有办法使用 Java 从 PostScript(.ps、.eps)文件中提取文本?

我正在为 Apache Tika 的 PDF 寻找类似于 PDFBox 的解决方案,但是,对于 PS 文件。

谢谢。

0 投票
3 回答
3121 浏览

html - 如何获取在谷歌中找到关键字的结果数量

我需要提供一个关键字,如“蓝色金属水壶”(带/不带引号),并且只获取为此搜索找到的结果数量。如果我现在不带引号进行搜索,我会得到:

这里 '1,040,000' 是我想要的数字。是否有任何 API 函数可以做到这一点,或者我必须通过 HTML 提取这个数字?最好的方法是什么?

0 投票
2 回答
126315 浏览

python - PDF Parsing Using Python - 提取格式化文本和纯文本

我正在寻找一个 PDF 库,它允许我从 PDF 文档中提取文本。我看过 PyPDF,它可以很好地从 PDF 文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。

我想从 PDF 文档中提取文本,不包括任何表格和特殊格式。有没有图书馆可以做到这一点?

0 投票
8 回答
5651 浏览

html - HTML 内容提取的最新技术是什么?

有很多关于 HTML 内容提取的学术工作,例如 Gupta & Kaiser (2005) Extracting Content from Accessible Web Pages,这里还有一些感兴趣的迹象,例如onetwothree,但我不太清楚后者的实践如何很好地反映了前者的思想。最佳做法是什么?

指向良好(特别是开源)实现的指针和对实现的良好学术调查将是我正在寻找的那种东西。

后记第一个:确切地说,我所追求的那种调查将是一篇论文(已发表,未发表,等等),它讨论了学术文献中的标准和一些现有的实现,并分析了实现的不成功程度从标准的角度来看。而且,真的,发到邮件列表的帖子也对我有用。

后记第二个要明确的是,在我接受了Peter Rowell的回答之后,我们可以看到这个问题导致了两个子问题:(i)清理不合格HTML的已解决问题,最推荐Beautiful Soup解决方案,以及(ii)未解决的问题或将垃圾(主要是网站添加的样板和促销材料)与肉类(认为该页面可能有趣的那种人实际上认为相关的内容)分离。解决最先进的技术,新的答案需要明确地解决从肉到肉的问题。

0 投票
3 回答
3028 浏览

c# - 以编程方式在浏览器中获取选定文本

从我的 Windows 应用程序中,我想检测“Internet Explorer”、Firefox 和任何其他浏览器中的选定文本。

你知道我应该使用哪段代码来实现这一点吗?

这个想法不是在 IE 中搜索文本,而是在 IE 中“捕获选定的文本”。顺便说一句,不仅是 IE,还有任何具有焦点的 Windows 应用程序我能想到的一件事是模拟 ctrl+c 来复制选定的文本,然后读取剪贴板,但我也不喜欢这个解决方案。

我几乎可以肯定应该有一种方法可以使用 Windows API 获取所选文本,我知道使用 EM_GETSELTEXT、WM_GETTEXT、EM_GETSEL 可能有用,但它们在 IE 或任何其他浏览器中不起作用,这是我的问题....

0 投票
6 回答
17499 浏览

unix - 如何在 unix 上使用行号从文件中提取行?

使用 sed 或类似方法,您将如何从文件中提取行?如果我想要文件中的第 1、5、1010、20503 行,我将如何获得这 4 行?

如果我需要提取大量行怎么办?如果我有一个包含 100 行的文件,每行代表一个我想从另一个文件中提取的行号,我该怎么做?

0 投票
7 回答
15192 浏览

php - 如何从字符串中提取 PHP 中的标题标签?

从包含大量 HTML 的字符串中,如何将<h1><h2>etc标签中的所有文本提取到新变量中?

我想从这些元素中捕获所有文本并将它们作为逗号分隔值存储在一个新变量中。

可以使用preg_match_all()吗?

0 投票
9 回答
31931 浏览

c# - 如何从合理的 HTML 中提取文本?

我的问题有点像这个问题,但我有更多的限制:

  • 我知道文件是合理的
  • 他们非常有规律(他们都来自同一个来源
  • 我想要大约 99% 的可见文本
  • 大约 99% 的可行内容是文本(它们或多或少是 RTF 转换为 HTML)
  • 我不关心格式甚至分节符。

是否有任何工具可以做到这一点,或者我最好只是打破 RegexBuddy 和 C#?

我对命令行或批处理工具以及 C/C#/D 库持开放态度。

0 投票
3 回答
668 浏览

php - 解析 SGML 并将其存储在 PHP 数组中

如果你能帮上忙,那你就是个天才。

基本上,我会有一些这样的文字:

所以总而言之,我将有一个像这样的父子层次结构:

我想知道如何解析所有这些信息并将它们存储在 php 数组/对象/变量中,同时保持它们出现的顺序?例如,如果<parent wealthy>出现在上面,<parent poor>我想让它们保持相同的顺序,如果<children male>出现在前面,也会发生同样的事情<children female>

这将是几乎完全有效的 XML,我可以使用 SimpleXML 来解析它,但是问题是孩子的名字不会出现在任何标签之间,并且客户端希望保持这种方式以方便用户使用。例如:

这里 'jane' 出现在任何标签之外,并且<hobbies>出现在一些标签之间。

如何解析?请给一些建议。如果您建议使用正则表达式,请提供可用于您的答案被接受的正则表达式,因为我不知道正则表达式。

谢谢。

编辑:主要问题是客户希望将普通文本与标签中的文本混合。例如:

那怎么解析呢?