r - 如何用 R 处理中文/日文字符

Question

我希望能够使用类似 tm 的包来使用 R 拆分和识别非英文字符（主要是日文/泰文/中文）。我想做的是将其转换为某种矩阵格式和然后运行随机森林/逻辑回归进行文本分类。有没有可能用 tm 或其他 R 包做到这一点？

score 2 · Accepted Answer

编辑：

看起来 R 很难以文本形式阅读非英文字符。我尝试从网上抓取中文字母，如果字符编码一致，得到的结果可能会有所帮助。

### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])

您现在有一个美国字母字符列表，另一列对应于这些字符是如何读入 R 中的。如果在您希望文本挖掘的原始对象中以相同的方式读取它们，是否可以使用 Regular一次一个搜索这些编码字符的表达式？

r - 如何用 R 处理中文/日文字符

1 回答 1

Related

Reference