问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5581 浏览

nlp - 从文本中提取位置的方法?

从自由文本中提取位置的推荐方法是什么?

我能想到的是使用正则表达式规则,如“words ... in location”。但是还有比这更好的方法吗?

我还可以考虑使用带有国家和城市名称的查找哈希表,然后将文本中提取的每个标记与哈希表中的标记进行比较。

有人知道更好的方法吗?

编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。

0 投票
2 回答
1978 浏览

text - Open-source rule-based pattern matching / information extraction frameworks?

I'm shopping for an open-source framework for writing natural language grammar rules for pattern matching over annotations. You could think of it like regexps but matching at the token rather than character level. Such a framework should enable the match criteria to reference other attributes attached to the input tokens or spans, as well as modify such attributes in an action.

There are three options I know of which fit this description:

Are there any other options like these available at this time?

Related Tools

  • While I know that general parser generators like Antlr can also serve this purpose, I'm looking for something which are more specifically tailored for natural language processing or information extraction.
  • UIMA includes a Regex Annotator plugin for declaring rules in XML, but appears to operate at the character rather than high-level objects.
  • I know that this kind of task is often performed with statistical models, but for narrow, structured domains there's benefit in hand-crafting rules.

* With GExp 'rules' are actually implemented in code but since there are so few options I chose to include it.

0 投票
3 回答
3506 浏览

java - 从字符串中提取信息的 Java 算法

我正在尝试在我的应用程序中实现智能搜索功能。用例:用户在文本框中输入搜索词

例如:给我找一个来自巴西的 28 岁的基督徒男性。

我需要将输入解析为地图,如下所示:

性别:年龄: 38 地点:巴西 宗教:基督教

已经看过了:OpenNLP、交叉验证、Java 模式匹配和正则表达式、信息提取。我很困惑我需要深入研究哪一个。

这个特定域是否已经有任何java lib 可用?

0 投票
1 回答
44 浏览

repository - 创建信息存储库引用机器人

我想创建一个机器人。有人会键入“!123”,机器人将在存储库中搜索值“123”并返回(粘贴)为该值找到的信息。我希望这是通用的……意味着它可以在任何地方使用,所以可能是某种 Firefox 插件。

有人可以向我提供有关我可以从哪里开始的信息吗?

我对 c# 和 java 编程有一定的了解。

Ps 无意成为某种垃圾邮件机器人,我只想收集人们可以轻松引用的信息。

0 投票
1 回答
1160 浏览

nlp - 将斯坦福时间标记器用于大数据是否很好?

我正在为我的项目探索斯坦福时间标记器,以从文本中提取日期实体。http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮助我了解这个库如何处理大数据。如果您能指导我了解其他基于 Java 的时间标记库,尤其是针对大数据需求的时间标记库,那也会很有帮助。是否有任何进行时间标记的apache项目?

我发现了一些图书馆,比如

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

0 投票
0 回答
313 浏览

nlp - 如何提取文本中的日期/地点?

提取文本中的时间/日期/地点的最佳软件包/软件是什么?

或者有没有可以用作数据集的数据集?

例如:

-- 请在 [154 室协调科学实验室] 研讨会之前的 [2:30 PM] 加入我们的饼干和咖啡

-- 然后我们会在 [星期五下午 6 点] 见面......

-- 本周的研讨会移至周二,从 [上午 11:00 到下午 12:00]。

时间:[11-12pm],[Oct. 29 星期二]

地点:[SC 0216]

标题频繁项集挖掘的组合特征的统计意义....

我可以为这样的任务训练机器学习模型,但我不知道任何标记的数据集。有人知道任何标记的数据集吗?

0 投票
1 回答
56 浏览

database - 不同短语中的单词比较

有没有办法判断两个词在两个不同的短语中是否相同?例如,在这两个短语中,“fat”等于“weight”,

0 投票
1 回答
871 浏览

lucene - 使用 Lucene 提取字段值

我的问题是我想只用文本数据解析一个文档(而不是多个文档),并根据我的查询提取一些相关信息。

例如:如果我有以下文本:

我想提取具有相应值的字段(姓名、年龄、电子邮件)

我发现的许多示例主要是搜索与查询匹配的文档。如果有人可以指导我在 lucene 库中查找哪些 Analyzer 或 Query 类或任何要阅读的材料,我将不胜感激。

0 投票
1 回答
582 浏览

python - 使用庞大的实体名称列表使用 Python 进行信息提取

我有大量多语言 html 文件,我想从中提取结构化数据。我还有大量出现在语料库中的实体名称列表(+5M)(多词:人员和组织名称、地点等),可以提供帮助。

我正在寻找一个 Python 库,它可以使用实体名称对文本进行快速标记(也许但没有必要执行其他任务,如 POS 标记和基本 NER)。结果应该可以使用简单的 REGEXP 进行搜索,例如带有标签的表达式。例如:“.+?[last_name] (is|was)(best)?[organisation_name] 的 CEO”。

我试图在 NLTK 和 CLIPS 模式中找到这个功能(pattern.search 类似)但失败了。具有此类功能的最接近的开源库是 GATE,但它是 Java 语言,对于这项任务来说似乎有点过头了。

谢谢,

达沃尔

0 投票
1 回答
435 浏览

java - 如何提取文本集合的子字符串?

我从pdf文档中提取了文本。..我想使用java提取其中的一些特定字段..

文字部分..

US00RE44697E
(i9) 美国
(12) 重新颁发的专利 (10) 专利号:RE44,697 E
Jones 等人。(45) 重新颁发专利日期:2014 年 1 月 7 日
(54) 共享
内存互连的加密
处理器 (75) 发明人:David E.Jones, Ottawa (CA);Cormac
MO'Connell, Carp (CA)
(73) 受让人:Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) 申请号:13/603,137
(22) 提交日期:2012 年 9 月 4 日
相关美国专利文件
再版的:
(64) 专利号:
颁发:
Appl。编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国际 CI。
G06F 21/00 (2013.01)
(52) 美国 CI。
USPC .............713/189;713/190;713/193;380/28;
380/33;380/52
(58) 分类检索领域

现在我的任务是从中提取字段并提供给字符串..就是

文本(10) Patent Number: RE44,697 E将被提取为String pat_no= " RE44,697 E"

文本(54) ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECT将被提取为String title= "ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECT"

极其不规则的文本块

(64) 专利号:
颁发:
Appl. 编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日

必须提取为

像这样..

我的作品

首先我使用了 string.split , string.substring , string,indexof 甚至 apache string utils ,但没有帮助..因为文本分散,上述方法没有帮助..我也尝试过正则表达式,但因为我非常很弱,我不会编程。

请告诉我如何使用 java 实现我的目标?