问题标签 [text-mining]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2510 问题

0 投票

1 回答

1464 浏览

lucene - Lucene 实体提取

给定实体术语的有限字典，我正在寻找一种使用 Lucene 进行智能标记的实体提取方法。目前我已经能够将 Lucene 用于：
- 搜索具有一些模糊性的复杂短语
- 突出显示结果

但是，我不知道如何：
- 获得匹配短语的准确偏移量
- 每次匹配执行特定于实体的注释（不仅仅是每次点击的标签）

我尝试过使用 explain() 方法——但这只会给出查询中获得命中的术语——而不是原始文本中命中的偏移量。

有没有人遇到过类似的问题并愿意分享潜在的解决方案？

提前感谢您的帮助！

2010-11-16T21:50:56.730

0 投票

2 回答

726 浏览

data-mining - Rapidminer 的运行时提示

我一直在使用 Rapidminer 并创建了一系列流程来执行一组标准任务。现在，我想让用户在开始时动态设置进程的参数。

例如，在编写 CSV 时，我想提示用户键入一个字符串，其中包含应通过某个提示保存它的位置（在脚本开始时，或在过程中的某个其他阶段。

这可以通过 Rapidminer 实现吗，还是我应该创建一些脚本来动态生成和运行他的进程？

data-mining text-mining rapidminer

2010-12-15T12:36:53.600

0 投票

2 回答

2374 浏览

nlp - 使用句子级相似度的释义识别

我是 NLP（自然语言处理）的新成员。作为一个启动项目，我正在开发一个释义识别器（一个可以识别两个相似句子的系统）。对于那个识别器，我将在三时应用各种措施级别即，词汇，语法，语义。在词汇级别，有多种相似性度量，例如余弦相似度，匹配系数，雅卡系数……等。对于这些度量，我使用的是谢菲尔德大学开发的 simMetrics 包。这是一个用于不同相似度度量的精彩包。它包含许多相似度度量。但是对于 levenshtein 距离和 jaro-winkler 距离度量，代码仅在 *字符级别*仅。我需要句子级别的代码（即考虑单个单词而不是字符）。而且 SimMetrics 中没有曼哈顿距离的代码...我请求专家给我一个开发所需代码的建议（或）在句子级别为我提供上述措施的代码。

非常感谢您花时间和精力帮助我。

nlp data-mining text-mining stanford-nlp

2011-01-08T10:19:22.030

0 投票

2 回答

4553 浏览

pdf - PubMed 文章的全文 PDF

在从事一个项目时，我需要下载和处理 PubMed 摘要的全文文章，是否有任何实现的代码或工具允许用户输入一组 PubMed id 并下载相同的免费全文文章。非常感谢任何类型的帮助或提示。

pdf nlp text-mining pubmed

2011-01-14T16:20:52.727

0 投票

1 回答

469 浏览

java - OpenNLP 是否无法识别“2009 年 1 月 10 日”格式的日期？

OpenNLP（Java 中）无法识别格式为“2010 年 1 月 10 日”或“2010 年 1 月 10 日”的日期。在使用 OpenNLP 标记器之前，我将文本中的所有 ',' 替换为空字符串“”，它适用于“2010 年 1 月 10 日”形式的日期。因此，我尝试将“th”替换为“，”，但没有成功。我们如何确保上述表格的日期与 OpenNLP 一致？

提前致谢

java date text-mining opennlp

2011-01-18T10:14:21.343

0 投票

6 回答

4238 浏览