文本分类流程及知识点总结

文本分类流程包括训练样本、分词、去停用词、权重计算、特征表示、特征提取(选择/抽取)、分类算法、模型和性能评价等流程。下面对这里流程能使用的方法及算法做一个总结。

1、分词

分词可用的方法和算法有:CRF、隐马尔夫模型(HMM)、MEMM、词典统计分词等方法。

2、权重计算

分词可用的方法和算法有:TF-IDF

3、特征表示

特征表示的方法和算法有:VSM、概率模型

4、特征提取(选择/抽取)

特征提取(选择/抽取)的方法和算法有:信息增益(IG)、互信息(MI)、CHI统计、PCA、LSA/PLSA

5、分类算法

基于统计的方法:朴素贝叶斯、K近邻、支持向量机(SVM)

基于连接的方法:神经网络

基于规则的方法:决策树

6、性能评价

性能评价的方法有:准确率、召回率、F1

 

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: