我有一个文本分类问题,它由两个类别组成——零一个。到目前为止,我尝试通过创建文档术语矩阵来解决它,并通过 SVM(使用 RTextTools 包)运行它。这是一个代码片段:(在 R 中)
models <- train_models(container, algorithms=c("SVM"))
results <- classify_models(container, models)
analytics <- create_analytics(container, results)
View(summary(analytics))
>>ALGORITHM PERFORMANCE
>>SVM_PRECISION SVM_RECALL SVM_FSCORE
>> 0.64 0.63 0.63
我的问题如下:
1.为什么结果矩阵中的所有预测值都在0.5-1之间?不应该是0-1吗?
2.假设我们将theta作为阈值来区分高于它的所有分数都属于1类,其余的都是0。我如何分析(在R中)在哪个theta下计算这些精度和召回值?如何更改此阈值以获得不同的值?
3.如何在 R 中为每个类创建两个不同的阈值(中间留下什么标记为“未识别”)?