我希望能够使用类似 tm 的包来使用 R 拆分和识别非英文字符(主要是日文/泰文/中文)。我想做的是将其转换为某种矩阵格式和然后运行随机森林/逻辑回归进行文本分类。有没有可能用 tm 或其他 R 包做到这一点?
问问题
3514 次
1 回答
2
编辑:
看起来 R 很难以文本形式阅读非英文字符。我尝试从网上抓取中文字母,如果字符编码一致,得到的结果可能会有所帮助。
### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])
您现在有一个美国字母字符列表,另一列对应于这些字符是如何读入 R 中的。如果在您希望文本挖掘的原始对象中以相同的方式读取它们,是否可以使用 Regular一次一个搜索这些编码字符的表达式?
于 2013-04-23T16:53:25.673 回答