问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
3442 浏览

math - 如何开始信息提取?

您能否推荐一条培训路径来开始并在信息提取方面变得非常出色。我开始阅读它来做我的一个爱好项目,并很快意识到我必须擅长数学(代数、统计、概率)。我已经阅读了一些关于不同数学主题的介绍性书籍(非常有趣)。寻求一些指导。请帮忙。

更新:只是为了回答其中一条评论。我对文本信息提取更感兴趣。

0 投票
4 回答
1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎,但出于商业原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。

0 投票
1 回答
352 浏览

date - 日期提取库

有谁知道周围是否有任何图书馆可以根据正文提取日期和时间?哪种语言都没有关系,我只是在寻找一个可以玩的库。

0 投票
2 回答
1400 浏览

html-parsing - 如何解析包含 javascript 的渲染网页

如何从呈现的网页中提取数据?其中java脚本会随时间更新数据。是否可以编写可以从网页 java 脚本访问变量的用户脚本?请提出可能的方法来实现这一目标。

0 投票
2 回答
126315 浏览

python - PDF Parsing Using Python - 提取格式化文本和纯文本

我正在寻找一个 PDF 库,它允许我从 PDF 文档中提取文本。我看过 PyPDF,它可以很好地从 PDF 文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。

我想从 PDF 文档中提取文本,不包括任何表格和特殊格式。有没有图书馆可以做到这一点?

0 投票
2 回答
4001 浏览

metadata - 使用条件随机字段进行命名实体识别

什么是条件随机场条件随机字段究竟如何将专有名称识别为结构化或非结构化文本中的人、组织或地点?

例如:此产品由 StackOverFlow Inc. 订购。

条件随机场如何将 StackOverFlow Inc. 识别为一个组织?

0 投票
2 回答
18737 浏览

ruby - 使用 Ruby/Mechanize(和 Nokogiri)从 HTML 中提取单个字符串

我正在从论坛中提取数据。我的脚本基于工作正常。现在我需要从单个帖子中提取日期和时间(2009 年 12 月 21 日,20:39)。我无法让它工作。我使用 FireXPath 来确定 xpath。

示例代码:

我所有的尝试都以空字符串或错误结束。


我找不到任何关于在 Mechanize 中使用 Nokogiri 的文档。机械化文档在页面底部说:

使用 Mechanize 导航到需要抓取的页面后,然后使用 Nokogiri 方法对其进行抓取。

但是什么方法呢?我在哪里可以通过示例和解释的语法阅读它们?我也没有在Nokogiri 的网站上找到任何东西。

0 投票
3 回答
668 浏览

php - 解析 SGML 并将其存储在 PHP 数组中

如果你能帮上忙,那你就是个天才。

基本上,我会有一些这样的文字:

所以总而言之,我将有一个像这样的父子层次结构:

我想知道如何解析所有这些信息并将它们存储在 php 数组/对象/变量中,同时保持它们出现的顺序?例如,如果<parent wealthy>出现在上面,<parent poor>我想让它们保持相同的顺序,如果<children male>出现在前面,也会发生同样的事情<children female>

这将是几乎完全有效的 XML,我可以使用 SimpleXML 来解析它,但是问题是孩子的名字不会出现在任何标签之间,并且客户端希望保持这种方式以方便用户使用。例如:

这里 'jane' 出现在任何标签之外,并且<hobbies>出现在一些标签之间。

如何解析?请给一些建议。如果您建议使用正则表达式,请提供可用于您的答案被接受的正则表达式,因为我不知道正则表达式。

谢谢。

编辑:主要问题是客户希望将普通文本与标签中的文本混合。例如:

那怎么解析呢?

0 投票
4 回答
31083 浏览

java - Java的媒体信息提取器

我需要一个可以处理常见媒体格式的媒体信息提取库(纯 Java 或 JNI 包装器)。我主要将它用于视频文件,我至少需要这些信息:

  1. 视频长度(运行时)
  2. 视频比特率
  3. 视频帧率
  4. 视频格式和编解码器
  5. 视频尺寸(宽 X 高)
  6. 音频通道
  7. 音频格式
  8. 音频比特率和采样率

周围有几个库和工具,但我找不到 Java。

0 投票
3 回答
3542 浏览

ruby - 使用 Ruby 从文本中解析日期

我试图弄清楚如何使用 Ruby 从非结构化文本中提取日期。

例如,我想从这个字符串中解析日期“将不考虑 2010 年 2 月 1 日午夜 (EST) 午夜 12:00 之后开始的应用程序”。

有什么建议么?