问题标签 [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 从文本中提取位置的方法?
从自由文本中提取位置的推荐方法是什么?
我能想到的是使用正则表达式规则,如“words ... in location”。但是还有比这更好的方法吗?
我还可以考虑使用带有国家和城市名称的查找哈希表,然后将文本中提取的每个标记与哈希表中的标记进行比较。
有人知道更好的方法吗?
编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。
text - Open-source rule-based pattern matching / information extraction frameworks?
I'm shopping for an open-source framework for writing natural language grammar rules for pattern matching over annotations. You could think of it like regexps but matching at the token rather than character level. Such a framework should enable the match criteria to reference other attributes attached to the input tokens or spans, as well as modify such attributes in an action.
There are three options I know of which fit this description:
- GATE Java Expressions over Annotations (JAPE)
- Stanford CoreNLP's TokensRegex
- UIMA Ruta (Tutorial)
- Graph Expression (GExp)*
Are there any other options like these available at this time?
Related Tools
- While I know that general parser generators like Antlr can also serve this purpose, I'm looking for something which are more specifically tailored for natural language processing or information extraction.
- UIMA includes a Regex Annotator plugin for declaring rules in XML, but appears to operate at the character rather than high-level objects.
- I know that this kind of task is often performed with statistical models, but for narrow, structured domains there's benefit in hand-crafting rules.
* With GExp 'rules' are actually implemented in code but since there are so few options I chose to include it.
java - 从字符串中提取信息的 Java 算法
我正在尝试在我的应用程序中实现智能搜索功能。用例:用户在文本框中输入搜索词
例如:给我找一个来自巴西的 28 岁的基督徒男性。
我需要将输入解析为地图,如下所示:
性别:男 年龄: 38 地点:巴西 宗教:基督教
已经看过了:OpenNLP、交叉验证、Java 模式匹配和正则表达式、信息提取。我很困惑我需要深入研究哪一个。
这个特定域是否已经有任何java lib 可用?
repository - 创建信息存储库引用机器人
我想创建一个机器人。有人会键入“!123”,机器人将在存储库中搜索值“123”并返回(粘贴)为该值找到的信息。我希望这是通用的……意味着它可以在任何地方使用,所以可能是某种 Firefox 插件。
有人可以向我提供有关我可以从哪里开始的信息吗?
我对 c# 和 java 编程有一定的了解。
Ps 无意成为某种垃圾邮件机器人,我只想收集人们可以轻松引用的信息。
nlp - 将斯坦福时间标记器用于大数据是否很好?
我正在为我的项目探索斯坦福时间标记器,以从文本中提取日期实体。http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮助我了解这个库如何处理大数据。如果您能指导我了解其他基于 Java 的时间标记库,尤其是针对大数据需求的时间标记库,那也会很有帮助。是否有任何进行时间标记的apache项目?
我发现了一些图书馆,比如
nlp - 如何提取文本中的日期/地点?
提取文本中的时间/日期/地点的最佳软件包/软件是什么?
或者有没有可以用作数据集的数据集?
例如:
-- 请在 [154 室协调科学实验室] 研讨会之前的 [2:30 PM] 加入我们的饼干和咖啡
-- 然后我们会在 [星期五下午 6 点] 见面......
-- 本周的研讨会移至周二,从 [上午 11:00 到下午 12:00]。
时间:[11-12pm],[Oct. 29 星期二]
地点:[SC 0216]
标题频繁项集挖掘的组合特征的统计意义....
我可以为这样的任务训练机器学习模型,但我不知道任何标记的数据集。有人知道任何标记的数据集吗?
database - 不同短语中的单词比较
有没有办法判断两个词在两个不同的短语中是否相同?例如,在这两个短语中,“fat”等于“weight”,
lucene - 使用 Lucene 提取字段值
我的问题是我想只用文本数据解析一个文档(而不是多个文档),并根据我的查询提取一些相关信息。
例如:如果我有以下文本:
我想提取具有相应值的字段(姓名、年龄、电子邮件)
我发现的许多示例主要是搜索与查询匹配的文档。如果有人可以指导我在 lucene 库中查找哪些 Analyzer 或 Query 类或任何要阅读的材料,我将不胜感激。
python - 使用庞大的实体名称列表使用 Python 进行信息提取
我有大量多语言 html 文件,我想从中提取结构化数据。我还有大量出现在语料库中的实体名称列表(+5M)(多词:人员和组织名称、地点等),可以提供帮助。
我正在寻找一个 Python 库,它可以使用实体名称对文本进行快速标记(也许但没有必要执行其他任务,如 POS 标记和基本 NER)。结果应该可以使用简单的 REGEXP 进行搜索,例如带有标签的表达式。例如:“.+?[last_name] (is|was)(best)?[organisation_name] 的 CEO”。
我试图在 NLTK 和 CLIPS 模式中找到这个功能(pattern.search 类似)但失败了。具有此类功能的最接近的开源库是 GATE,但它是 Java 语言,对于这项任务来说似乎有点过头了。
谢谢,
达沃尔
java - 如何提取文本集合的子字符串?
我从pdf文档中提取了文本。..我想使用java提取其中的一些特定字段..
文字部分..
US00RE44697E
(i9) 美国
(12) 重新颁发的专利 (10) 专利号:RE44,697 E
Jones 等人。(45) 重新颁发专利日期:2014 年 1 月 7 日
(54) 共享
内存互连的加密
处理器 (75) 发明人:David E.Jones, Ottawa (CA);Cormac
MO'Connell, Carp (CA)
(73) 受让人:Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) 申请号:13/603,137
(22) 提交日期:2012 年 9 月 4 日
相关美国专利文件
再版的:
(64) 专利号:
颁发:
Appl。编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国际 CI。
G06F 21/00 (2013.01)
(52) 美国 CI。
USPC .............713/189;713/190;713/193;380/28;
380/33;380/52
(58) 分类检索领域
无
现在我的任务是从中提取字段并提供给字符串..就是
文本(10) Patent Number: RE44,697 E
将被提取为String pat_no= " RE44,697 E"
文本(54) ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT
将被提取为String title= "ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT"
极其不规则的文本块
(64) 专利号:
颁发:
Appl. 编号:
归档:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
必须提取为
像这样..
我的作品
首先我使用了 string.split , string.substring , string,indexof 甚至 apache string utils ,但没有帮助..因为文本分散,上述方法没有帮助..我也尝试过正则表达式,但因为我非常很弱,我不会编程。
请告诉我如何使用 java 实现我的目标?