问题标签 [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 计算Python中标点字符之间的单词数
我想使用 Python 来计算文本输入块中某些标点字符之间出现的单词数。例如,对到目前为止所写的所有内容的这种分析可能表示为:
[23、2、14]
...因为第一个句子除了末尾的句号没有标点符号,有 23 个单词,接下来的“例如”短语有两个,其余以冒号结尾的短语有 14 个。
这可能不会太难做,但是(与似乎特别是 Pythonic 的“不要重新发明轮子”的理念相一致)是否已经有任何东西特别适合这项任务?
solr - 从 Lucene 索引中提取搭配词
我有一个存储在 Lucene 中的文档索引。我需要从索引中提取所有搭配词及其频率。我知道有各种算法可以检测给定文档中的搭配,但我不知道有任何现有的库可以与 Lucene 一起专门用于此任务。有谁知道任何图书馆?
我知道如何从 lucene 索引中仅提取二元组,但并非所有二元组当然都是搭配词。
python - 如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用?- Python
如何将 sklearn CountVectorizer 与“word”和“char”分析器一起使用? http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
我可以通过 word 或 char 分别提取文本特征,但我如何创建一个charword_vectorizer
?有没有办法组合矢量化器?或使用多个分析仪?
text-analysis - 集群评论列表
我是一个刚刚发现了很棒的 Carrot2 框架的初学者。
我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表(约 100 条评论,大约 10-200 个字符)进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗?还是有更好的方法(例如,对“标题”和“片段”使用两次评论文本?)
web-scraping - 使用 rapidminer 对 imdb 电影评论进行文本分析
我正在使用快速矿工对特定电影的评论进行分析。我使用“getpages”从 IMDB 中提取评论。网站上列出了大约 94 条评论,但提取后我只得到了 21 条。xml代码是:
在 excel 文件中,我一个接一个地获取评论的链接。我还需要用户给出的“评级”。
java - 爬取时错误字符串索引超出范围
在抓取前 2 个 URL 的“线程“AWT-EventQueue-0”中的异常 java.lang.StringIndexOutOfBoundsException:字符串索引超出范围:0”后,我的程序不断出现错误。我想要的前几个 URL 的抓取,我使用另一个类中的方法从它们那里获取文本。另一堂课可能是我不知道的问题。请看看我的代码,看看发生了什么。
python - 是否有任何用于动态主题模型的高效 python 库,最好是扩展 Gensim?
我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案,其简单性令人印象深刻。它对 LSI 有真正的在线实现,但对 LDA 没有。对于 twitter 等不断变化的内容流,动态主题模型是理想的选择。有没有什么办法,甚至是一种破解——一种实现甚至一种策略,我可以使用 Gensim 来达到这个目的?
是否有任何其他 python 实现(最好)从 Gensim 派生或独立?我更喜欢python,因为我想尽快开始,但是如果有一些工作的最佳解决方案,请提及。
谢谢。
autocomplete - 自动更正文档语料库
我有一个大约 6GB 大小的文档语料库,其中大部分是用户在移动平台上生成的内容。由于该语料库的来源性质,它充斥着拼写错误、缩写和截断的单词。有没有办法可以将这些单词自动更正为最接近的英语单词?
java - 标记的潜在狄利克雷分配输入值
我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子,包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后,我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。
查看输出时,主题关键字分配的前半部分大部分都很好,例如:
但是,我越接近输出文件的末尾,主题关键字的分配就完全奇怪了:
有人可以解释一下为什么我最终得到了如此错误的任务吗?而且,为什么价值极低?
如前所述,我有大约 36,000 个帖子,这些是执行 LLDA 的值:
我发现几乎没有关于以前值的文档,因此通过反复试验,我发现这些最适合我设法获得的值。但是,也许有更好理解的人可以向我解释和/或建议什么值是最好的?
r - 如何使用R创建网页中所有句子的特征向量
我正在使用 R 来“抓取”网页并对其内容进行文本挖掘。我需要做的是在 R 中获取一个字符向量,其中向量中的每个元素都是网页中的一个句子。有没有办法识别 html 文档中的单个句子?以某种方式检测期间前后发生的任何事情。
我这样做是为了获取原始 URL 数据
然后我从每一页中提取文本:
但我收到以下错误并且无法继续:
函数错误(类型、msg、asError = TRUE):url 格式错误调用自:.rs.breakOnError(TRUE)