0

有人能告诉我如何使用神经网络对一些短信进行分类吗?有没有例子?如何预处理文本消息以训练神经网络?

谢谢

4

1 回答 1

4

虽然你的问题很模糊,但我会试一试,但这真的取决于你想做什么。如果您只是尝试提取特征并确定是否:

  • 您的功能选择很好
  • 使用什么机器学习算法/结构

然后,Weka 是一个很棒的选择。这是一组教程的链接:https ://www.youtube.com/watch?v=gd5HwYYOz2U

基本上,您需要编写一个程序来提取您认为相关的特征以及数据的可能“类”,然后输出一个 .arff 文件。所谓班级,我的意思是,如果您要确定一个句子是关于水果还是蔬菜,那么您的两个班级将是水果和蔬菜。一开始可能看起来很复杂,但实际上并不太难。生成 .arff 文件后,您可以将其提供给 Weka 并在其上运行无数不同的分类器,以找出最适合您的数据的模型。如有必要,您可以对该模型进行编程以对您的数据进行操作。

Weka 还包括交叉验证,这将基本上确保您的结果质量将超出您提供给程序的测试数据。如果您不熟悉这个概念,很容易过度训练您的模型并使用一组特定的训练数据获得良好的结果,但是在对其他数据进行测试时会得到更糟糕的结果。

Weka .arff 文件(供参考:加拿大工业劳资谈判中的最终解决方案):

@relation 'labor-neg-data'
@attribute 'duration' real
@attribute 'wage-increase-first-year' real
@attribute 'wage-increase-second-year' real
@attribute 'wage-increase-third-year' real
@attribute 'cost-of-living-adjustment' {'none','tcf','tc'}
@attribute 'working-hours' real
@attribute 'pension' {'none','ret_allw','empl_contr'}
@attribute 'standby-pay' real
@attribute 'shift-differential' real
@attribute 'education-allowance' {'yes','no'}
@attribute 'statutory-holidays' real
@attribute 'vacation' {'below_average','average','generous'}
@attribute 'longterm-disability-assistance' {'yes','no'}
@attribute 'contribution-to-dental-plan' {'none','half','full'}
@attribute 'bereavement-assistance' {'yes','no'}
@attribute 'contribution-to-health-plan' {'none','half','full'}
@attribute 'class' {'bad','good'}
@data
1,5,?,?,?,40,?,?,2,?,11,'average',?,?,'yes',?,'good'
2,4.5,5.8,?,?,35,'ret_allw',?,?,'yes',11,'below_average',?,'full',?,'full','good'
?,?,?,?,?,38,'empl_contr',?,5,?,11,'generous','yes','half','yes','half','good'
2,2,2,?,'none',40,'none',?,?,'no',11,'average','yes','none','yes','full','bad'
1,2,?,?,'tc',40,'ret_allw',4,0,'no',11,'generous','no','none','no','none','bad'
1,2.8,?,?,'none',38,'empl_contr',2,3,'no',9,'below_average','yes','half',?,'none','bad'

在哪里 ?识别缺失/未知的数据点。

于 2013-05-09T05:18:19.347 回答