2

实施问题分析器有哪些好的资源?

我试图弄清楚如何自动标记问题,以使非技术用户更容易提问。我发现使用贝叶斯定理可以实现这一点,但我不知道如何实现它。

有任何开源库或研究论文吗?

4

2 回答 2

3

朴素贝叶斯概率分类器常用于文本分类。基本思想是使用单词和类别的联合概率来估计给定文档的类别概率。这种模型的幼稚部分是单词独立性的假设。这个假设的简单性使得朴素贝叶斯分类器的计算比非朴素贝叶斯方法的指数复杂性要高效得多,因为它不使用单词组合作为预测器。如果任务是将测试文档分类为单个类,则选择具有最高后验概率的类。

这是一个参考:[1] Tom Mitchell,“机器学习”,McGraw-Hill,1997。(第 6.10 节)

如果您假设每个问题类别都是文本类型,那么您可以使用文本分类。

朴素贝叶斯分类器基于贝叶斯定理,您假设所有特征(或属性)都是独立的。

这很容易实现。您可以找到许多带有实现的软件包。e1071 R 中的包实现了它。这是 R 中使用朴素贝叶斯分类器的示例代码:


N <- nrow(data)
Ntrain <- round(N*0.7)
data <- data[sample(1:N),]
train <- data[1:Ntrain,]
test <- data[(Ntrain+1):N,]
y<-as.factor(train[,13])
x<-train[,3:12]
y_test <- as.factor(test[,13])
x_test <- test[,3:12]
library(e1071)
m <- naiveBayes(x, y) 
pred_test <- predict(m,x_test, type = "class")
pred <- predict(m,x, type = "class")

于 2010-08-17T03:57:05.260 回答
1

您的算法必须维护一个表(或类似的东西)

Word            Category
-------------------------------------
algo            algorithm
design          algorithm
...
...
libraries       library
open            open-source
open-source     open-source
paper           research-paper
research        research-paper
source          source-code
...

当你根据这个表分析语句时(忽略填充词后)

1. "Any open source libraries or research papers on this?"

2. open source libraries research papers

3. 
open            open-source
source          source-code
open-source     open-source
libraries       library
research        research-paper
paper           research-paper
research-paper  research-paper

4. by a simple majority, (you can also use a more complex algorithm here,
   like assigning weights to the Categories)
selected category = research paper

随着您使用所选算法不断学习,您的表格会不断更新,并且您会不断获得更好的结果。

于 2010-08-17T20:22:06.190 回答