r - 在 R 中拆分单词

Question

我有一个文本文件，其中包含不应该连接的单词。以下是文本文件的示例：

Gangnam S. 在 Yelp 上对 JOEY Eaton 中心 - 多伦多 (4/5) 的评论。JOEY Eaton Centre 86 条点评评分详情体育酒吧 1 Dundas St W Toronto；ON M5G 1Z3 社区：市中心 (647) 352-5639 http://www.joeyrestaurants.comAddPhotos 营业时间：周一至周日上午 11 点至凌晨 2 点适合儿童：否接受信用卡：是停车：车库；街头服饰：休闲适合团体：是价格范围：$ 需要预订：是送货：否外卖：是服务员服务：是户外座位：是 Wi-Fi：免费适合：晚餐酒精：全酒吧噪音水平：平均环境：时尚有电视：是迎合：否首先评论 Karen G. 编辑业务信息发送给朋友书签写评论 JOEY Eaton Center 的 86 条评论评论匹配：搜索评论 ReviewHighlights ...我必须得到杀手 Ahi 金枪鱼炸玉米饼 - 用很少见... 在 3 条评论中尝试龙虾馄饨或龙虾烤奶酪。在 8 条评论中...点了孟买黄油鸡 - 配上烤面包... 在 7 条评论中加载中... 排序方式： Yelp 排序 | 日期 | 评级 | 精英| Facebook Friends' Facebook Friends FromReviewers You' 重新关注您朋友的评论 86 条英文评论 Catherine J. Elite'12 的评论 11 位朋友 26 条评论 Catherine J. Markham; ON 11/21/2012 一个仓库大小的酒吧和一个匹配的阵容；但是跳过乔伊的欢迎垫，你会得到一个很好的城市介绍。有几个原因可以享受这个联合：1）大小。它很大。

使用 R 清理此文本和不正确连接的单词的有效方法是什么？

谢谢，

布奇

score 0 · Accepted Answer

如果问题是两个不正确连接的单词包含一个小写的第一个单词和一个大写的第二个单词，那么这将起作用，如果您的文本是txt：

gsub("([a-z])([A-Z])", "\\1 \\2", txt)

例如

> txt <- "FriendBookmark Write a Review 86 reviews for JOEY Eaton Centre Reviews Matching: Search Reviews ReviewHighlights"
> gsub("([a-z])([A-Z])", "\\1 \\2", txt)
[1] "Friend Bookmark Write a Review 86 reviews for JOEY Eaton Centre Reviews Matching: Search Reviews Review Highlights"

不幸的是，解析未连接为“camelCase”的单词的方法更难。因此，例如，分离“耦合原因”将需要对文本进行标记并对部分单词执行字典搜索，即使这样也不是决定性的。你如何解析“theresits” - “theresits”或“the resits”？

r - 在 R 中拆分单词

1 回答 1

Related

Reference