问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 删除字符并组合字符串
我正在转换从 pdf 文件中读取的文本。
特别是,我有一个字符向量,其中包含连字符(“-”),用于执行音节化,或将单词分隔为新行,但仅当它出现在 numbers 时。例如:
我想要做的是删除所有连字符并将这些单词粘贴在一起。
我的开始尝试:
从这里,我尝试:
但这会返回单独的数字。例如
- 123 2. 456
没有一个字 - 123456。
有任何想法吗?
r - Issue with syllabification and regex
I have a pdf file that I am reading as a text.
The problem I am having has to do with syllabification occurring between numbers.
Link to file on github.
If you search the document, you'll see examples like 530000101378- 659. This is supposed to be a single number 530000101378659.
I've tried different regex versions, but all failed.
This is the remaining code:
In every instance, the output in count is two seperate words
I assume the regex is failing in combining the elements from different lines. But im not sure how to fix it.
Any help is much appreciated.
r - 网页从 HTML 抓取 pdf 文件
如何从 HTML 中删除 pdf 文档?我正在使用 R,我只能从 HTML 中提取文本。我要废弃的网站示例如下。
问候
r - R中的错误消息:mutate_impl(.data,dots)中的错误:无效的参数类型
我尝试使用 tidytext 分析一些文本并使用下面的代码;但是收到一条错误消息:
这是我在公司内部 R 平台上收到的错误消息,但是代码在我当地的 R 工作室上运行。我应该怎么做才能纠正错误?(输入和输出都是字符串)
r - unnest_tokens 的对面
这很可能是一个愚蠢的问题,但我已经用谷歌搜索和搜索,但找不到解决方案。我认为这是因为我不知道正确的方式来表达我要搜索的问题。
我有一个数据框,已在 R 中转换为整洁的文本格式,以消除停用词。我现在想将该数据框“整理”回其原始格式。
unnest_tokens 的相反/反向命令是什么?
编辑:这是我正在使用的数据的样子。我正在尝试复制 Silge 和 Robinson 的Tidy Text book 中的分析,但使用的是意大利歌剧歌词。
我把它变成整洁的文本,这样我就可以去掉停用词:
现在我有这样的事情:
我想将其恢复为字符名称和相关行的格式以查看其他内容。基本上我希望文本格式与以前相同,但删除了停用词。
r - tidytext R 西班牙语 - 任何替代方案?
我正在从 twitter 进行情绪分析,但我的推文是西班牙语的,所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西班牙语套餐?
r - R tidytext stop_words 没有从gutenbergr 下载中始终如一地过滤
这是一个奇怪的谜题。我从古腾堡下载了 2 篇文章——爱丽丝梦游仙境和尤利西斯。停用词从 Alice 身上消失了,但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器 (!word %in% stop_words$word),此问题仍然存在。
如何从 Ulysses 中获取 stop_words?
谢谢你的帮助!
r - 使用 unnest_tokens() 标记句子,忽略缩写
我正在使用优秀的tidytext
包来标记几个段落中的句子。例如,我想采取以下段落:
“我完全相信达西先生没有缺陷。他自己拥有它,毫不掩饰。”
并将其标记为两个句子
- “我完全相信达西先生没有缺陷。”
- “他自己拥有它,毫不掩饰。”
但是,当我使用默认的句子标记器时,tidytext
我得到了三个句子。
代码
结果
什么是tidytext
用于标记句子的简单方法,但不会遇到常见缩写(例如“先生”)的问题?或“博士” 被解释为句尾?
r - tidytext——如何做共性和对比词云
让我从Tidytext 简介@CRAN中的以下完整工作代码开始
到目前为止一切都很好。我有六本简·奥斯汀的小说,去掉了标准的垃圾词。
这让我明白了:《理智与情感》、《傲慢与偏见》、《曼斯菲尔德公园》、《艾玛》、《诺桑格修道院》、《说服》。
所以如果我想做一个所有六个的标准TF词云,没问题。就像这样(添加颜色):
工作精美。但是,我该如何对所有六本小说进行commonality.cloud ()以及对相同内容的 compare.cloud() 呢?
我需要的所有数据都在clean_books中——但我不知道如何重塑它。感谢您的帮助!
知道了。谢谢。
如果其他人有类似的问题,将离开。
上面的代码 &
效果很好。