问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - Lucene 实体提取
给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取方法。目前我已经能够将 Lucene 用于:
- 搜索具有一些模糊性的复杂短语
- 突出显示结果
但是,我不知道如何:
- 获得匹配短语的准确偏移量
- 每次匹配执行特定于实体的注释(不仅仅是每次点击的标签)
我尝试过使用 explain() 方法——但这只会给出查询中获得命中的术语——而不是原始文本中命中的偏移量。
有没有人遇到过类似的问题并愿意分享潜在的解决方案?
提前感谢您的帮助!
data-mining - Rapidminer 的运行时提示
我一直在使用 Rapidminer 并创建了一系列流程来执行一组标准任务。现在,我想让用户在开始时动态设置进程的参数。
例如,在编写 CSV 时,我想提示用户键入一个字符串,其中包含应通过某个提示保存它的位置(在脚本开始时,或在过程中的某个其他阶段。
这可以通过 Rapidminer 实现吗,还是我应该创建一些脚本来动态生成和运行他的进程?
nlp - 使用句子级相似度的释义识别
我是 NLP(自然语言处理)的新成员。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个相似句子的系统)。对于那个识别器,我将在三时应用各种措施级别即,词汇,语法,语义。在词汇级别,有多种相似性度量,例如余弦相似度,匹配系数,雅卡系数……等。对于这些度量,我使用的是谢菲尔德大学开发的 simMetrics 包。这是一个用于不同相似度度量的精彩包。它包含许多相似度度量。但是对于 levenshtein 距离和 jaro-winkler 距离度量,代码仅在 *字符级别*仅。我需要句子级别的代码(即考虑单个单词而不是字符)。而且 SimMetrics 中没有曼哈顿距离的代码...我请求专家给我一个开发所需代码的建议(或)在句子级别为我提供上述措施的代码。
非常感谢您花时间和精力帮助我。
pdf - PubMed 文章的全文 PDF
在从事一个项目时,我需要下载和处理 PubMed 摘要的全文文章,是否有任何实现的代码或工具允许用户输入一组 PubMed id 并下载相同的免费全文文章。非常感谢任何类型的帮助或提示。
java - OpenNLP 是否无法识别“2009 年 1 月 10 日”格式的日期?
OpenNLP(Java 中)无法识别格式为“2010 年 1 月 10 日”或“2010 年 1 月 10 日”的日期。在使用 OpenNLP 标记器之前,我将文本中的所有 ',' 替换为空字符串“”,它适用于“2010 年 1 月 10 日”形式的日期。因此,我尝试将“th”替换为“,”,但没有成功。我们如何确保上述表格的日期与 OpenNLP 一致?
提前致谢
php - 使用 PHP 在正文中查找 3-8 个单词的常用短语
我正在寻找一种使用 PHP 在正文中查找常用短语的方法。如果在 php 中不可能,我会对其他可以帮助我完成这项工作的网络语言感兴趣。
内存或速度不是问题。
现在,我可以轻松找到关键字,但不知道如何搜索短语。
java - 如何将单词分类到对应的类别?
我必须为一长串单词实现文本分类。我定义了一些类别,例如,如果列表中包含“UK”一词,它将位于“Regions”下。如果单词是“Pizza”,它将归入“食物”类别。
如何对不同类别的单词进行分类?有没有可用的开源工具来做到这一点?
outlook - 文本挖掘 Outlook 电子邮件存档
我正在考虑对一组包含超过 4 年通信的大型单个 .pst 文件进行一些文本挖掘。
最初,我只想提取标题信息来识别社交网络,但最终想开始根据关键词对电子邮件进行分类,或者创建一些结构化的输出来支持进一步的分析。
有没有人有任何建议从哪里开始?
java - 如何解决 OpenNLP 中的“缺少 manifest.properties”?
我正在尝试使用 OpenNLP 进行标记化。我不知道有什么问题。以下是例外情况:
logging - 减少大型日志文件的工具
我使用巨大的日志文件 - 1GB 左右,其中有许多用户会话,而我只关心一个会话。
我通常可以通过搜索会话 ID(需要 2 分钟以上)来缩小文件中包含我感兴趣的会话的一般区域。之后,我想删除用户会话中发生的事件之前和之后的数据,以使我的后续搜索更快(因为我现在已经缩小了感兴趣的区域)。
我喜欢在谷歌浏览器中加载巨大的日志文件并使用搜索突出显示功能,该功能在滚动条上用标记显示感兴趣的区域,但它不适用于大于 200MB 的文件,并且不允许我删除不相关的部分日志以使后续搜索更快。
我想这是一个普遍的问题。如果我能找到这样的工具,那将是一个巨大的节省时间。
谢谢。