问题标签 [tidytext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

279 问题

0 投票

2 回答

307 浏览

r - 删除字符并组合字符串

我正在转换从 pdf 文件中读取的文本。

特别是，我有一个字符向量，其中包含连字符（“-”），用于执行音节化，或将单词分隔为新行，但仅当它出现在 numbers 时。例如：

我想要做的是删除所有连字符并将这些单词粘贴在一起。

我的开始尝试：

从这里，我尝试：

但这会返回单独的数字。例如

123 2. 456

没有一个字 - 123456。

有任何想法吗？

r dplyr tidytext

2017-09-26T11:48:15.473

0 投票

2 回答

82 浏览

r - Issue with syllabification and regex

I have a pdf file that I am reading as a text.

The problem I am having has to do with syllabification occurring between numbers.

Link to file on github.

If you search the document, you'll see examples like 530000101378- 659. This is supposed to be a single number 530000101378659.

I've tried different regex versions, but all failed.

This is the remaining code:

In every instance, the output in count is two seperate words

I assume the regex is failing in combining the elements from different lines. But im not sure how to fix it.

Any help is much appreciated.

r regex string stringi tidytext

2017-09-27T08:57:01.787

0 投票

1 回答

9776 浏览

r - 网页从 HTML 抓取 pdf 文件

如何从 HTML 中删除 pdf 文档？我正在使用 R，我只能从 HTML 中提取文本。我要废弃的网站示例如下。

https://www.bot.or.th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx

问候

r text web-scraping tidytext

2017-10-02T10:40:41.630

0 投票

2 回答

1816 浏览

r - R中的错误消息：mutate_impl（.data，dots）中的错误：无效的参数类型

我尝试使用 tidytext 分析一些文本并使用下面的代码；但是收到一条错误消息：

这是我在公司内部 R 平台上收到的错误消息，但是代码在我当地的 R 工作室上运行。我应该怎么做才能纠正错误？（输入和输出都是字符串）

r text-mining tidytext

2017-10-09T16:58:25.537

0 投票

2 回答

2955 浏览

r - unnest_tokens 的对面

这很可能是一个愚蠢的问题，但我已经用谷歌搜索和搜索，但找不到解决方案。我认为这是因为我不知道正确的方式来表达我要搜索的问题。

我有一个数据框，已在 R 中转换为整洁的文本格式，以消除停用词。我现在想将该数据框“整理”回其原始格式。

unnest_tokens 的相反/反向命令是什么？

编辑：这是我正在使用的数据的样子。我正在尝试复制 Silge 和 Robinson 的Tidy Text book 中的分析，但使用的是意大利歌剧歌词。

我把它变成整洁的文本，这样我就可以去掉停用词：

现在我有这样的事情：

我想将其恢复为字符名称和相关行的格式以查看其他内容。基本上我希望文本格式与以前相同，但删除了停用词。

r tidyr tidyverse tidytext

2017-10-13T16:44:37.667

0 投票

3 回答

4011 浏览

r - tidytext R 西班牙语 - 任何替代方案？

我正在从 twitter 进行情绪分析，但我的推文是西班牙语的，所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西班牙语套餐？

r sentiment-analysis tidytext

2017-11-02T12:21:27.467

0 投票

2 回答

4985 浏览

r - 'sep' 不是从 'namespace:dplyr' 导出的对象

在这本书关于 tydy-text 之后获得 n-gram：http: //tidytextmining.com/ngrams.html

编码：

我收到一个错误：

r dplyr tidyr tidytext

2017-11-07T12:43:07.260

0 投票

1 回答

862 浏览

r - R tidytext stop_words 没有从gutenbergr 下载中始终如一地过滤

这是一个奇怪的谜题。我从古腾堡下载了 2 篇文章——爱丽丝梦游仙境和尤利西斯。停用词从 Alice 身上消失了，但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器 (!word %in% stop_words$word)，此问题仍然存在。

如何从 Ulysses 中获取 stop_words？

谢谢你的帮助！

Alice & Ulysses 的前 15 个 tf_idf 图表

r stop-words tidytext anti-join

2017-11-09T19:14:52.190

0 投票

2 回答

2988 浏览

r - 使用 unnest_tokens() 标记句子，忽略缩写

我正在使用优秀的tidytext包来标记几个段落中的句子。例如，我想采取以下段落：

“我完全相信达西先生没有缺陷。他自己拥有它，毫不掩饰。”

并将其标记为两个句子

“我完全相信达西先生没有缺陷。”
“他自己拥有它，毫不掩饰。”

但是，当我使用默认的句子标记器时，tidytext我得到了三个句子。

代码

结果

什么是tidytext用于标记句子的简单方法，但不会遇到常见缩写（例如“先生”）的问题？或“博士” 被解释为句尾？

r text tidytext

2017-11-09T21:15:09.887

0 投票

1 回答

722 浏览

r - tidytext——如何做共性和对比词云

让我从Tidytext 简介@CRAN中的以下完整工作代码开始

到目前为止一切都很好。我有六本简·奥斯汀的小说，去掉了标准的垃圾词。

这让我明白了：《理智与情感》、《傲慢与偏见》、《曼斯菲尔德公园》、《艾玛》、《诺桑格修道院》、《说服》。

所以如果我想做一个所有六个的标准TF词云，没问题。就像这样（添加颜色）：

工作精美。但是，我该如何对所有六本小说进行commonality.cloud ()以及对相同内容的 compare.cloud() 呢？

我需要的所有数据都在clean_books中——但我不知道如何重塑它。感谢您的帮助！

知道了。谢谢。

如果其他人有类似的问题，将离开。

上面的代码 &

效果很好。

r tidyverse word-cloud tidytext

2017-11-14T09:23:33.690

1 2 3 4 5 6 7 8 9 10

问题标签 [tidytext]

知道了。谢谢。

Reference