“information-extraction”的相关标签问题

0 投票

3 回答

5581 浏览

nlp - 从文本中提取位置的方法？

从自由文本中提取位置的推荐方法是什么？

我能想到的是使用正则表达式规则，如“words ... in location”。但是还有比这更好的方法吗？

我还可以考虑使用带有国家和城市名称的查找哈希表，然后将文本中提取的每个标记与哈希表中的标记进行比较。

有人知道更好的方法吗？

编辑：我正在尝试从推文文本中提取位置。因此，大量推文的问题也可能会影响我对方法的选择。

2013-07-20T12:58:47.163

0 投票

2 回答

1978 浏览

text - Open-source rule-based pattern matching / information extraction frameworks?

I'm shopping for an open-source framework for writing natural language grammar rules for pattern matching over annotations. You could think of it like regexps but matching at the token rather than character level. Such a framework should enable the match criteria to reference other attributes attached to the input tokens or spans, as well as modify such attributes in an action.

There are three options I know of which fit this description:

Are there any other options like these available at this time?

Related Tools

While I know that general parser generators like Antlr can also serve this purpose, I'm looking for something which are more specifically tailored for natural language processing or information extraction.
UIMA includes a Regex Annotator plugin for declaring rules in XML, but appears to operate at the character rather than high-level objects.
I know that this kind of task is often performed with statistical models, but for narrow, structured domains there's benefit in hand-crafting rules.

* With GExp 'rules' are actually implemented in code but since there are so few options I chose to include it.

text open-source nlp named information-extraction

2013-07-26T22:20:09.923

0 投票

3 回答

3506 浏览

java - 从字符串中提取信息的 Java 算法

我正在尝试在我的应用程序中实现智能搜索功能。用例：用户在文本框中输入搜索词

例如：给我找一个来自巴西的 28 岁的基督徒男性。

我需要将输入解析为地图，如下所示：

性别：男 年龄： 38 地点：巴西 宗教：基督教

已经看过了：OpenNLP、交叉验证、Java 模式匹配和正则表达式、信息提取。我很困惑我需要深入研究哪一个。

这个特定域是否已经有任何java lib 可用？

java machine-learning nlp opennlp information-extraction

2013-08-08T13:22:53.917

0 投票

1 回答

44 浏览

repository - 创建信息存储库引用机器人

我想创建一个机器人。有人会键入“！123”，机器人将在存储库中搜索值“123”并返回（粘贴）为该值找到的信息。我希望这是通用的……意味着它可以在任何地方使用，所以可能是某种 Firefox 插件。

有人可以向我提供有关我可以从哪里开始的信息吗？

我对 c# 和 java 编程有一定的了解。

Ps 无意成为某种垃圾邮件机器人，我只想收集人们可以轻松引用的信息。

repository bots information-retrieval information-extraction

2013-08-15T19:53:41.653

0 投票

1 回答

1160 浏览

nlp - 将斯坦福时间标记器用于大数据是否很好？

我正在为我的项目探索斯坦福时间标记器，以从文本中提取日期实体。http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮助我了解这个库如何处理大数据。如果您能指导我了解其他基于 Java 的时间标记库，尤其是针对大数据需求的时间标记库，那也会很有帮助。是否有任何进行时间标记的apache项目？

我发现了一些图书馆，比如

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

nlp stanford-nlp information-extraction named-entity-recognition

2013-09-03T13:20:58.027

0 投票

0 回答

313 浏览

nlp - 如何提取文本中的日期/地点？

提取文本中的时间/日期/地点的最佳软件包/软件是什么？

或者有没有可以用作数据集的数据集？

例如：

-- 请在 [154 室协调科学实验室] 研讨会之前的 [2:30 PM] 加入我们的饼干和咖啡

-- 然后我们会在 [星期五下午 6 点] 见面......

-- 本周的研讨会移至周二，从 [上午 11:00 到下午 12:00]。

时间：[11-12pm]，[Oct. 29 星期二]

地点：[SC 0216]

标题频繁项集挖掘的组合特征的统计意义....

我可以为这样的任务训练机器学习模型，但我不知道任何标记的数据集。有人知道任何标记的数据集吗？

nlp information-retrieval information-extraction

2013-10-30T19:29:34.567

0 投票

1 回答

56 浏览

database - 不同短语中的单词比较

有没有办法判断两个词在两个不同的短语中是否相同？例如，在这两个短语中，“fat”等于“weight”，

database artificial-intelligence data-mining information-extraction

2013-11-07T21:48:29.777

0 投票

1 回答

871 浏览

lucene - 使用 Lucene 提取字段值

我的问题是我想只用文本数据解析一个文档（而不是多个文档），并根据我的查询提取一些相关信息。

例如：如果我有以下文本：

我想提取具有相应值的字段（姓名、年龄、电子邮件）

我发现的许多示例主要是搜索与查询匹配的文档。如果有人可以指导我在 lucene 库中查找哪些 Analyzer 或 Query 类或任何要阅读的材料，我将不胜感激。

lucene information-retrieval information-extraction

2013-11-12T10:49:52.493

0 投票

1 回答

582 浏览

python - 使用庞大的实体名称列表使用 Python 进行信息提取

我有大量多语言 html 文件，我想从中提取结构化数据。我还有大量出现在语料库中的实体名称列表（+5M）（多词：人员和组织名称、地点等），可以提供帮助。

我正在寻找一个 Python 库，它可以使用实体名称对文本进行快速标记（也许但没有必要执行其他任务，如 POS 标记和基本 NER）。结果应该可以使用简单的 REGEXP 进行搜索，例如带有标签的表达式。例如：“.+？[last_name] (is|was)(best)？[organisation_name] 的 CEO”。

我试图在 NLTK 和 CLIPS 模式中找到这个功能（pattern.search 类似）但失败了。具有此类功能的最接近的开源库是 GATE，但它是 Java 语言，对于这项任务来说似乎有点过头了。

谢谢，

达沃尔

python regex text-mining information-extraction

2013-11-19T21:41:05.987

0 投票

1 回答

435 浏览

java - 如何提取文本集合的子字符串？

我从pdf文档中提取了文本。..我想使用java提取其中的一些特定字段..

文字部分..

US00RE44697E
(i9) 美国
(12) 重新颁发的专利 (10) 专利号：RE44,697 E
Jones 等人。(45) 重新颁发专利日期：2014 年 1 月 7 日
(54) 共享
内存互连的加密
处理器 (75) 发明人：David E.Jones, Ottawa (CA)；Cormac
MO'Connell, Carp (CA)
(73) 受让人：Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) 申请号：13/603,137
(22) 提交日期：2012 年 9 月 4 日
相关美国专利文件
再版的：
(64) 专利号：
颁发：
Appl。编号：
归档：
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国际 CI。
G06F 21/00 (2013.01)
(52) 美国 CI。
USPC .............713/189；713/190；713/193；380/28；
380/33；380/52
(58) 分类检索领域
无

现在我的任务是从中提取字段并提供给字符串..就是

文本(10) Patent Number: RE44,697 E将被提取为String pat_no= " RE44,697 E"

文本(54) ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECT将被提取为String title= "ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECT"

极其不规则的文本块

(64) 专利号：
颁发：
Appl. 编号：
归档：
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日

必须提取为

像这样..

我的作品

首先我使用了 string.split ， string.substring ， string，indexof 甚至 apache string utils ，但没有帮助..因为文本分散，上述方法没有帮助..我也尝试过正则表达式，但因为我非常很弱，我不会编程。

请告诉我如何使用 java 实现我的目标？

java regex string extract information-extraction

2014-01-14T15:06:23.337

问题标签 [information-extraction]

Reference