问题标签 [text-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1236 浏览

python - 计算Python中标点字符之间的单词数

我想使用 Python 来计算文本输入块中某些标点字符之间出现的单词数。例如,对到目前为止所写的所有内容的这种分析可能表示为:

[23、2、14]

...因为第一个句子除了末尾的句号没有标点符号,有 23 个单词,接下来的“例如”短语有两个,其余以冒号结尾的短语有 14 个。

这可能不会太难做,但是(与似乎特别是 Pythonic 的“不要重新发明轮子”的理念相一致)是否已经有任何东西特别适合这项任务?

0 投票
1 回答
447 浏览

solr - 从 Lucene 索引中提取搭配词

我有一个存储在 Lucene 中的文档索引。我需要从索引中提取所有搭配词及其频率。我知道有各种算法可以检测给定文档中的搭配,但我不知道有任何现有的库可以与 Lucene 一起专门用于此任务。有谁知道任何图书馆?

我知道如何从 lucene 索引中仅提取二元组,但并非所有二元组当然都是搭配词。

0 投票
2 回答
12687 浏览

python - 如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用?- Python

如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用? http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

我可以通过 word 或 char 分别提取文本特征,但我如何创建一个charword_vectorizer?有没有办法组合矢量化器?或使用多个分析仪?

0 投票
1 回答
95 浏览

text-analysis - 集群评论列表

我是一个刚刚发现了很棒的 Carrot2 框架的初学者。

我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表(约 100 条评论,大约 10-200 个字符)进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗?还是有更好的方法(例如,对“标题”和“片段”使用两次评论文本?)

0 投票
2 回答
949 浏览

web-scraping - 使用 rapidminer 对 imdb 电影评论进行文本分析

我正在使用快速矿工对特定电影的评论进行分析。我使用“getpages”从 IMDB 中提取评论。网站上列出了大约 94 条评论,但提取后我只得到了 21 条。xml代码是:

在 excel 文件中,我一个接一个地获取评论的链接。我还需要用户给出的“评级”。

0 投票
0 回答
503 浏览

java - 爬取时错误字符串索引超出范围

在抓取前 2 个 URL 的“线程“AWT-EventQueue-0”中的异常 java.lang.StringIndexOutOfBoundsException:字符串索引超出范围:0”后,我的程序不断出现错误。我想要的前几个 URL 的抓取,我使用另一个类中的方法从它们那里获取文本。另一堂课可能是我不知道的问题。请看看我的代码,看看发生了什么。

0 投票
3 回答
3671 浏览

python - 是否有任何用于动态主题模型的高效 python 库,最好是扩展 Gensim?

我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案,其简单性令人印象深刻。它对 LSI 有真正的在线实现,但对 LDA 没有。对于 twitter 等不断变化的内容流,动态主题模型是理想的选择。有没有什么办法,甚至是一种破解——一种实现甚至一种策略,我可以使用 Gensim 来达到这个目的?

是否有任何其他 python 实现(最好)从 Gensim 派生或独立?我更喜欢python,因为我想尽快开始,但是如果有一些工作的最佳解决方案,请提及。

谢谢。

0 投票
1 回答
415 浏览

autocomplete - 自动更正文档语料库

我有一个大约 6GB 大小的文档语料库,其中大部分是用户在移动平台上生成的内容。由于该语料库的来源性质,它充斥着拼写错误、缩写和截断的单词。有没有办法可以将这些单词自动更正为最接近的英语单词?

0 投票
0 回答
197 浏览

java - 标记的潜在狄利克雷分配输入值

我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子,包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后,我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。

查看输出时,主题关键字分配的前半部分大部分都很好,例如:

但是,我越接近输出文件的末尾,主题关键字的分配就完全奇怪了:

有人可以解释一下为什么我最终得到了如此错误的任务吗?而且,为什么价值极低?

如前所述,我有大约 36,000 个帖子,这些是执行 LLDA 的值:

我发现几乎没有关于以前值的文档,因此通过反复试验,我发现这些最适合我设法获得的值。但是,也许有更好理解的人可以向我解释和/或建议什么值是最好的?

0 投票
0 回答
248 浏览

r - 如何使用R创建网页中所有句子的特征向量

我正在使用 R 来“抓取”网页并对其内容进行文本挖掘。我需要做的是在 R 中获取一个字符向量,其中向量中的每个元素都是网页中的一个句子。有没有办法识别 html 文档中的单个句子?以某种方式检测期间前后发生的任何事情。

我这样做是为了获取原始 URL 数据

然后我从每一页中提取文本:

但我收到以下错误并且无法继续:

函数错误(类型、msg、asError = TRUE):url 格式错误调用自:.rs.breakOnError(TRUE)