问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1892 浏览

javascript - 从 htmlgreasemonkey 中提取信息

所以我正在尝试编写一个greasemonkey 脚本来为我在在线游戏中放置瓷砖。我已经弄清楚了放置图块,但是为了扩展脚本,我需要将循环限制为移动次数。我想不出从页面的 html 中提取此信息的最佳方法:

我只是在寻找有关如何对付这种野兽的指示。正则表达式?

编辑:这个 div 的完整代码是

我知道这很丑。

0 投票
5 回答
8213 浏览

text - NLP 寻找实体之间的关系

我目前的理解是,可以使用 OpenNLP、Stanford NLP 等工具包从文本文档中提取实体。

但是,有没有办法找到这些实体之间的关系?

例如考虑以下文本:

“你们有些人可能知道,我上周在欧洲高能物理实验室 CERN 度过,著名的希格斯玻色子在去年 7 月被发现。每次去 CERN,我都会感到深深的敬意。除了快速参观之外多年来,我在 1990 年代后期作为访问科学家在那里呆了三个月,从事早期宇宙物理学的研究,试图弄清楚如何将我们今天看到的宇宙与其婴儿期可能发生的事情联系起来。”

实体:(作者)、欧洲核子研究中心希格斯玻色子

关系: - 我“访问过”CERN - CERN“发现了”希格斯玻色子

谢谢。

0 投票
1 回答
245 浏览

nlp - 食品信息提取

我正在使用美国农业部营养数据库,其食物有以下描述:

例如:

这里有一个模式,逗号显然用于分隔实体。按照上面的例子,cheese 是 cheddar、cottage 和 fontina 的父代。

为了从这个来源中提取信息,我已经做了一些工作。我认为:

  • 词性标注:如果一个词是形容词或动词,则不是食物名称的一部分
  • freqdist/wordcount:这样做是为了获得食物描述中的单词层次结构

但是当我大规模运行它时,我会得到不准确的结果。POS 标记在某些描述中失败,并且当同一个句子中存在具有相似频率的单词时,freqdist/wordcount 没有用。

这是我想要得到的结果的一个例子:

输入数据:

输出数据:

输入数据:

输出数据:

我是初学者,所以我想得到一些关于它的指导。关于 NLP 的信息很多,如果没有对该主题的广泛了解,很难确定该走哪条路。

0 投票
0 回答
146 浏览

information-extraction - 如何提取命名实体之间的关系?

我已经使用 Opennlp 来查找命名实体,现在我正在寻找一种技术来提取它们以及使用 MEMM(最大熵马尔可夫模型)的两个命名实体之间的关系。

谁能知道如何进行?

(ps:对不起我的英语不好)

谢谢。

0 投票
1 回答
1102 浏览

java - How to read structured data from Wikipedia using its JSON response

Wikipedia has unstructured and structured information about any topic. I specially want to get structured data which is always displayed at the right side of an article. This side contains different data as you can see in an example below:

Structured data as shown in wikipedia

How can I read that data using Java and the JSON response?

0 投票
2 回答
112 浏览

php - 在 PHP 中提取 DNA 序列的处理信息

您好,专家助手,

这是我发布的第一个问题,我看到其他问题收到了很棒的答案。我的问题如下;

我想提取在处理与 DNA 序列(SNP:对每个 SNP 具有特定唯一 ID 的单个核苷酸多态性)相关的查询后给出的结果(输出),该网站提供处理的网站(例如 FASTSNP 网站)基于排名给定的 SNP,并能够将提取的结果存储在 MySQL 数据库中。有没有办法使用正则表达式或任何其他 PHP 和/或 Perl(out 命令来这样做?任何做过的人都可以帮助我。

先感谢您!

0 投票
2 回答
7865 浏览

nlp - 信息提取和文本挖掘有什么区别?

它可能看起来很容易。但我很困惑。

文本挖掘和信息提取有什么区别?

0 投票
1 回答
208 浏览

xml-parsing - 信息提取 - 商业文件

我目前正在尝试从账单等商业文件中提取信息,例如发件人或收件人。这些文档是用ocr软件处理成xml文件的,因此它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后,我想从新文档中提取特定信息。

所以我的问题是,是否有一种学习或匹配算法能够通过仅与一个或两个类似文档的示例进行比较来提取特定数据。如果是:是否有某种Java框架能够做到这一点?

谢天谢地

马古

0 投票
1 回答
811 浏览

r - 如何从 cox.zph R 函数中提取属性

我需要在 R 函数p的输出中提取特定行的属性。cox.zph

为了让您有疑问,我将我的问题描述如下,并通过一个示例逐步说明:

然后,我使用cox.zph功能:

使用以下输出:

我试图p通过使用来获取属性值(在本例中为 0.57),attributes(zph)p为了执行类似zph$p. 我也使用plyr了没有结果的包。

有人可以帮助我吗?谢谢。

0 投票
4 回答
12080 浏览

r - R中的隐藏马尔可夫模型包

我需要一些帮助在 R 中实现 HMM 模块。我是 R 新手,对它了解不多。所以我必须使用 HMM 实现一个 IE,我有 2 个包含文件的文件夹,一个包含句子,另一个包含我想从每个句子中学习的相应标签。

我的问题是如何在 R 上实现它,如何初始化模型以及如何训练它?然后我如何将它应用于随机句子以提取信息?

提前感谢所有帮助!