一周前我做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做 wgat。
情况:我有很多包含 HTML 内容的下载页面。例如,其中一些可以是来自博客的文本。它们不是结构化的并且来自不同的站点。
我想要做什么:我将用空格分割所有单词,并且我想将每个单词或一组单词分类为一些预定义的项目,如姓名、数字、电话、电子邮件、网址、日期、金钱、温度等.
我所知道的:我知道/听说过有关自然语言处理、命名实体识别器、POSTagging、NayveBayesian、HMM、培训和很多分类的事情等的概念,但是有一些不同的 NLP 库具有不同的分类器和方法来做到这一点,我不知道有什么用或做什么。
我需要什么:我需要一些来自分类器、NLP 等的代码示例,它可以将每个单词从文本中单独分类,而不是整个文本。像这样的东西:
//This is pseudo-code for what I want, and not a implementation
classifier.trainFromFile("file-with-train-words.txt");
words = text.split(" ");
for(String word: words){
classifiedWord = classifier.classify(word);
System.out.println(classifiedWord.getType());
}
有人可以帮助我吗?我对各种 API、分类器和算法感到困惑。