问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - sqlite中的文本挖掘
我有 sqlite 数据库,需要在其中找到最常用的单词。例子,
文字
桌椅地板
桌椅
桌
需要解决方案
字数
表 3
椅子 2
楼 1
数据库很大(几 Gb)。我正在寻找 SQL 中的解决方案。也可能使用 C++ 或其他方法。
java - WEKA - 从 Java 中分类新数据 - IDF 转换
我们正在尝试从 Java 程序内部实现 WEKA 分类器。到目前为止一切都很好,但是当从 Weka GUI 中的训练集构建分类器时,我们使用 StringToWordVector IDF 转换来帮助提高分类准确性。
在将实例传递给分类器之前,如何从 Java 中的新实例计算 IDF 转换以为新实例中的每个标记值设置?
基本代码如下所示:
那么我该如何进行编码,以便将正确的值放入我想要分类的新实例中?
为了清楚起见,inst.setValue(unlabeled.attribute(tmp), 1.0);
需要将行更改1.0
为 IDF 转换后的数字...
hadoop - 对大量字符串进行文本挖掘
我有字符串列表。(相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB)。这些字符串的格式如下:
1,嗨
2,你好怎么ru?
2、怎么熬?
3、去哪儿?
3、这是什么意思
3、什么意思
现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想用以下方式显示字符串
1-嗨
2-嗨,你好吗?
3-这是什么意思?
3-你在哪里?
此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。
现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。
谢谢和问候, 阿图尔
search - VIM:如何搜索匹配没有特定字符的行?
我从一个 ldiff 文件中有一些这样的行,
现在有一些行是上一行的延续。我想加入他们各自的行列。
我感到困惑的是如何在没有":"
字符的情况下搜索一行,以便可以将其与上一行连接起来。
请帮忙。
python - 如何计算段落中的单词数并排除某些单词(从文件中)?
我刚开始学习 Python,所以我的问题可能有点傻。我正在尝试创建一个程序,它将:
- 导入文本文件(得到它)
- 计算单词总数(得到它),
- 计算特定段落中的单词数,从特定短语开始(例如“P1”,以另一个参与者“P2”结尾)并将这些词排除在我的字数之外。不知何故,我最终得到了一些计算字符数的东西:/
- 分别打印段落(明白了)
- 从我的字数中排除“P1”“P2”等单词。
我的文本文件如下所示:
P1:Bla bla bla。
P2:呜呜呜。
P1:布拉布拉。
P3:布拉。
我最终得到了这段代码:
任何想法如何改进它?
谢谢
python - 如何总结对话中每个人的字数?
我开始学习 Python,我正在尝试编写一个程序来导入文本文件,计算总字数,计算特定段落中的字数(由每个参与者说,由“P1”描述,'P2'等),从我的字数统计中排除这些单词(即'P1'等),并分别打印段落。
感谢@James Hurford,我得到了这个代码:
我的文本文件如下所示:
P1:呜呜呜。
P2:呜呜呜。
P1:布拉布拉。
P3:布拉。
我需要做的下一部分是总结每个参与者的话。我只能打印它们,但我不知道如何退回/重复使用它们。
除了总结每个参与者所说的所有单词之外,我还需要一个新的变量来计算每个参与者的字数,以便稍后我可以对其进行操作,例如
有没有办法将“you're”或“it's”等视为两个词?
任何想法如何解决它?
data-mining - 数据挖掘情况
假设我有如下所述的数据。
11AM user1刷机
上午 11:05 用户 1 准备早餐
11:10 AM user1 吃早餐
上午 11:15 用户 1 洗澡
上午 11:30 用户 1 离开办公室
12PM user2刷机
12:05PM user2 准备早餐
12:10 PM user2 吃早餐
12:15 PM user2 洗澡
12:30 PM user2 离开办公室
11AM user3 洗澡
上午 11:05 用户 3 准备早餐
11:10AM user3刷机
11:15AM user3 吃早餐
上午 11:30 用户 3 离开办公室
12PM 用户4 洗澡
12:05PM user4 准备早餐
12:10PM user4刷机
12:15 PM user4 吃早餐
12:30 PM user4 离开办公室
这些数据告诉我不同人的日常生活。从这些数据看来,user1 和 user2 的行为相似(尽管它们执行活动的时间有所不同,但它们遵循相同的顺序)。出于同样的原因,User3 和 User4 的行为相似。现在我必须将这些用户分组到不同的组中。在此示例中,group1- user1 和 USer2 ... 后跟 group2,包括 user3 和 user4
我应该如何处理这种情况。我正在尝试学习数据挖掘,这是一个我认为是数据挖掘问题的例子。我正在尝试找到解决方案的方法,但我想不出一个。我相信这些数据中有规律。但我无法想到可以揭示它的方法。此外,我必须将这种方法映射到我拥有的数据集上,该数据集非常庞大但与此类似:) 数据是关于一次记录事件发生的日志。我想找到代表类似事件序列的组。
任何指针将不胜感激。
java - How to do Document Analysis using Text Mining?
I would like to analyze the given document to find out whether the document contains the content of my interested domain knowledge or something not related to the domain knowledge.
For example, I have a document that contains data about Android OS, and I have a domain ontology which specifies the full knowledge about android.Now I have to find out how many percentage of valid content my document poses with regard to domain ontology.
One way of reaching near to the solution is to use ANNIE(GATE) to extract Named Entities(NE) from document and compare them with the instances of domain ontology and the percentage of valid content can be found.
- Can you suggest any other better technique that I can use?
- Are there any other open source APIs are available? I tried, Lingpipe but I can't use that in a commercial product.
- Are there any Open source applications available of this kind? I searched a lot but I could not find any application.
java - 无监督的命名实体识别 (NER),具有自定义控制词汇表,用于 Java 中的交叉链接建议
我正在寻找一个可以使用自定义控制词汇表进行命名实体识别 (NER) 的 Java 库,而无需首先标记训练数据。我在 SE 上搜索了一些,但大多数问题都相当不具体。
考虑以下用例:
- 一位编辑在 CMS 中输入文章(约 500 字)。
- 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
- 兴趣点的名称,如酒吧、餐馆以及社区等。
- 存在这些实体的受控词汇表(大约 5.000 个实体)。
- 我想象一个实体是词汇表中的一个元组
- 完成文本后,用户应该能够保存文档。
- 这会触发工作流通过与实体名称进行比较来根据词汇表扫描文本片段。不需要 100% 匹配:Jarao-winkler 或其他任何东西(我不熟悉算法的 NER 使用什么)的 97% 可能就足够了,我需要它是可配置的。
- 命中返回到控制器服务器端。这反过来将 JSON 返回到包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。
理想情况下,我正在寻找一个项目,该项目使用 NRE 来建议 CMS 环境中的交叉链接以进行搭载。(例如,我确定存在 wordpress 的插件)不太确定 Java 中是否存在类似的东西。
也欢迎使用受控自定义词汇表的所有其他更通用的指向 NRE 库的指针。
twitter - 关于使用推特数据进行数据挖掘
我打算写一篇关于使用情绪信息来增强某些金融交易模型对货币的预测性的论文。
情绪数据应该是 twitter 线程,包括一些关键字,例如“EUR.USD”。我会过滤掉一些情绪词来识别情绪。简单的想法。然后我们尝试看看情绪程度与 EUR.USD 的走势之间是否存在任何关系。
我最关心的是推特数据。众所周知,推特设置了查看历史数据的限制。您只能浏览 5 天。这是不够的,因为我们的策略基于每日情绪。
我注意到谷歌有一些很棒的东西,比如关于 twitter 更新的时间线:http ://www.readwriteweb.com/archives/googles_twitter_timeline_lets_you_explore_the_past.php
但首先,我在瑞士,我的谷歌似乎没有这样的功能,这太聪明了,无法识别我的位置,可能会阻止像这样的一些美国谷歌版本的功能。其次,即使我可以在我的 Firefox 上看到一些精美的交互式谷歌时间线控件,我如何从查询中挖掘数据并保存它们?谷歌提供这样的api吗?