zhangv.com
使用weka的explorer进行中文文本分类
第一步: 修改RunWeka.ini文件,修改encoding为gbk, 否则会有中文乱码 第二步: 生成arff文件, 可以参考weka安装目录下的/data/ReutersCorn-train.arff文件格式. 中文和英文的一个区别是需要进行分词. 可以自己写个程序把文本转化为词序列. 比如: text,class ‘我 是 帅哥’,1 ‘…