问题标签 [text-analysis]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

431 问题

0 投票

2 回答

1236 浏览

python - 计算Python中标点字符之间的单词数

我想使用 Python 来计算文本输入块中某些标点字符之间出现的单词数。例如，对到目前为止所写的所有内容的这种分析可能表示为：

[23、2、14]

...因为第一个句子除了末尾的句号没有标点符号，有 23 个单词，接下来的“例如”短语有两个，其余以冒号结尾的短语有 14 个。

这可能不会太难做，但是（与似乎特别是 Pythonic 的“不要重新发明轮子”的理念相一致）是否已经有任何东西特别适合这项任务？

2014-01-18T19:49:41.323

0 投票

1 回答

447 浏览

solr - 从 Lucene 索引中提取搭配词

我有一个存储在 Lucene 中的文档索引。我需要从索引中提取所有搭配词及其频率。我知道有各种算法可以检测给定文档中的搭配，但我不知道有任何现有的库可以与 Lucene 一起专门用于此任务。有谁知道任何图书馆？

我知道如何从 lucene 索引中仅提取二元组，但并非所有二元组当然都是搭配词。

solr lucene text-analysis

2014-02-05T16:28:21.053

0 投票

2 回答

12687 浏览

python - 如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用？- Python

如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用？ http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

我可以通过 word 或 char 分别提取文本特征，但我如何创建一个charword_vectorizer？有没有办法组合矢量化器？或使用多个分析仪？

python machine-learning scikit-learn analyzer text-analysis

2014-02-06T10:27:27.450

0 投票

1 回答

95 浏览

text-analysis - 集群评论列表

我是一个刚刚发现了很棒的 Carrot2 框架的初学者。

我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表（约 100 条评论，大约 10-200 个字符）进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗？还是有更好的方法（例如，对“标题”和“片段”使用两次评论文本？）

text-analysis carrot2

2014-03-03T07:49:23.940

0 投票

2 回答

949 浏览

web-scraping - 使用 rapidminer 对 imdb 电影评论进行文本分析

我正在使用快速矿工对特定电影的评论进行分析。我使用“getpages”从 IMDB 中提取评论。网站上列出了大约 94 条评论，但提取后我只得到了 21 条。xml代码是：

在 excel 文件中，我一个接一个地获取评论的链接。我还需要用户给出的“评级”。

web-scraping rapidminer imdb text-analysis

2014-03-07T15:24:04.830

0 投票

0 回答

503 浏览

java - 爬取时错误字符串索引超出范围

在抓取前 2 个 URL 的“线程“AWT-EventQueue-0”中的异常 java.lang.StringIndexOutOfBoundsException：字符串索引超出范围：0”后，我的程序不断出现错误。我想要的前几个 URL 的抓取，我使用另一个类中的方法从它们那里获取文本。另一堂课可能是我不知道的问题。请看看我的代码，看看发生了什么。

java http web-crawler search-engine text-analysis

2014-03-11T12:23:35.980

0 投票

3 回答

3671 浏览

python - 是否有任何用于动态主题模型的高效 python 库，最好是扩展 Gensim？

我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案，其简单性令人印象深刻。它对 LSI 有真正的在线实现，但对 LDA 没有。对于 twitter 等不断变化的内容流，动态主题模型是理想的选择。有没有什么办法，甚至是一种破解——一种实现甚至一种策略，我可以使用 Gensim 来达到这个目的？

是否有任何其他 python 实现（最好）从 Gensim 派生或独立？我更喜欢python，因为我想尽快开始，但是如果有一些工作的最佳解决方案，请提及。

谢谢。

python lda text-analysis topic-modeling gensim

2014-03-18T02:52:52.060

0 投票

1 回答

415 浏览

autocomplete - 自动更正文档语料库

我有一个大约 6GB 大小的文档语料库，其中大部分是用户在移动平台上生成的内容。由于该语料库的来源性质，它充斥着拼写错误、缩写和截断的单词。有没有办法可以将这些单词自动更正为最接近的英语单词？

autocomplete machine-learning nlp nltk text-analysis

2014-03-18T22:14:07.333

0 投票

0 回答

197 浏览

java - 标记的潜在狄利克雷分配输入值

我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子，包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后，我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。

查看输出时，主题关键字分配的前半部分大部分都很好，例如：

但是，我越接近输出文件的末尾，主题关键字的分配就完全奇怪了：

有人可以解释一下为什么我最终得到了如此错误的任务吗？而且，为什么价值极低？

如前所述，我有大约 36,000 个帖子，这些是执行 LLDA 的值：

我发现几乎没有关于以前值的文档，因此通过反复试验，我发现这些最适合我设法获得的值。但是，也许有更好理解的人可以向我解释和/或建议什么值是最好的？

java machine-learning text-analysis topic-modeling

2014-03-24T12:39:00.370

0 投票

0 回答

248 浏览

r - 如何使用R创建网页中所有句子的特征向量

我正在使用 R 来“抓取”网页并对其内容进行文本挖掘。我需要做的是在 R 中获取一个字符向量，其中向量中的每个元素都是网页中的一个句子。有没有办法识别 html 文档中的单个句子？以某种方式检测期间前后发生的任何事情。

我这样做是为了获取原始 URL 数据

然后我从每一页中提取文本：

但我收到以下错误并且无法继续：

函数错误（类型、msg、asError = TRUE）：url 格式错误调用自：.rs.breakOnError(TRUE)

r webpage text-mining text-analysis

2014-03-27T01:45:18.670

1 2 3 4 5 6 7 8 9 10

问题标签 [text-analysis]

Reference