问题标签 [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
307 浏览

r - 删除字符并组合字符串

我正在转换从 pdf 文件中读取的文本。

特别是,我有一个字符向量,其中包含连字符(“-”),用于执行音节化,或将单词分隔为新行,但仅当它出现在 numbers 时。例如:

我想要做的是删除所有连字符并将这些单词粘贴在一起。

我的开始尝试:

从这里,我尝试:

但这会返回单独的数字。例如

  1. 123 2. 456

没有一个字 - 123456。

有任何想法吗?

0 投票
2 回答
82 浏览

r - Issue with syllabification and regex

I have a pdf file that I am reading as a text.

The problem I am having has to do with syllabification occurring between numbers.

Link to file on github.

If you search the document, you'll see examples like 530000101378- 659. This is supposed to be a single number 530000101378659.

I've tried different regex versions, but all failed.

This is the remaining code:

In every instance, the output in count is two seperate words

I assume the regex is failing in combining the elements from different lines. But im not sure how to fix it.

Any help is much appreciated.

0 投票
1 回答
9776 浏览

r - 网页从 HTML 抓取 pdf 文件

如何从 HTML 中删除 pdf 文档?我正在使用 R,我只能从 HTML 中提取文本。我要废弃的网站示例如下。

https://www.bot.or.th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx

问候

0 投票
2 回答
1816 浏览

r - R中的错误消息:mutate_impl(.data,dots)中的错误:无效的参数类型

我尝试使用 tidytext 分析一些文本并使用下面的代码;但是收到一条错误消息:

这是我在公司内部 R 平台上收到的错误消息,但是代码在我当地的 R 工作室上运行。我应该怎么做才能纠正错误?(输入和输出都是字符串)

0 投票
2 回答
2955 浏览

r - unnest_tokens 的对面

这很可能是一个愚蠢的问题,但我已经用谷歌搜索和搜索,但找不到解决方案。我认为这是因为我不知道正确的方式来表达我要搜索的问题。

我有一个数据框,已在 R 中转换为整洁的文本格式,以消除停用词。我现在想将该数据框“整理”回其原始格式。

unnest_tokens 的相反/反向命令是什么?

编辑:这是我正在使用的数据的样子。我正在尝试复制 Silge 和 Robinson 的Tidy Text book 中的分析,但使用的是意大利歌剧歌词。

我把它变成整洁的文本,这样我就可以去掉停用词:

现在我有这样的事情:

我想将其恢复为字符名称和相关行的格式以查看其他内容。基本上我希望文本格式与以前相同,但删除了停用词。

0 投票
3 回答
4011 浏览

r - tidytext R 西班牙语 - 任何替代方案?

我正在从 twitter 进行情绪分析,但我的推文是西班牙语的,所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西班牙语套餐?

0 投票
2 回答
4985 浏览

r - 'sep' 不是从 'namespace:dplyr' 导出的对象

在这本书关于 tydy-text 之后获得 n-gram:http: //tidytextmining.com/ngrams.html

编码:

我收到一个错误:

0 投票
1 回答
862 浏览

r - R tidytext stop_words 没有从gutenbergr 下载中始终如一地过滤

这是一个奇怪的谜题。我从古腾堡下载了 2 篇文章——爱丽丝梦游仙境和尤利西斯。停用词从 Alice 身上消失了,但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器 (!word %in% stop_words$word),此问题仍然存在。

如何从 Ulysses 中获取 stop_words?

谢谢你的帮助!

Alice & Ulysses 的前 15 个 tf_idf 图表

0 投票
2 回答
2988 浏览

r - 使用 unnest_tokens() 标记句子,忽略缩写

我正在使用优秀的tidytext包来标记几个段落中的句子。例如,我想采取以下段落:

“我完全相信达西先生没有缺陷。他自己拥有它,毫不掩饰。”

并将其标记为两个句子

  1. “我完全相信达西先生没有缺陷。”
  2. “他自己拥有它,毫不掩饰。”

但是,当我使用默认的句子标记器时,tidytext我得到了三个句子。

代码

结果

什么是tidytext用于标记句子的简单方法,但不会遇到常见缩写(例如“先生”)的问题?或“博士” 被解释为句尾?

0 投票
1 回答
722 浏览

r - tidytext——如何做共性和对比词云

让我从Tidytext 简介@CRAN中的以下完整工作代码开始

到目前为止一切都很好。我有六本简·奥斯汀的小说,去掉了标准的垃圾词。

这让我明白了:《理智与情感》、《傲慢与偏见》、《曼斯菲尔德公园》、《艾玛》、《诺桑格修道院》、《说服》

所以如果我想做一个所有六个的标准TF词云,没问题。就像这样(添加颜色):

工作精美。但是,我该如何对所有六本小说进行commonality.cloud ()以及对相同内容的 compare.cloud() 呢?

我需要的所有数据都在clean_books中——但我不知道如何重塑它。感谢您的帮助!

知道了。谢谢。

如果其他人有类似的问题,将离开。

上面的代码 &

效果很好。