随机森林可以用来选择特征重要性
我很懒的,放一个链接,可以去看这个PDF文件。
随机森林的预测值
- 预测类别:给出具体的类别值,使用predict即可
- 预测分数:给出每个树的加权分数,使用predict_proba预测即可,用于生产上构建一些可信的分数。
随机森林调参问题
- 用gridsearchcv去找参数吧
类别不平衡怎么处理?
- 加权重去处理,可以增加较少样本的权重来缓解类别不平衡问题
随机森林使用管道操作的方便性
- 处理过程可以相对统一
- 预测模型的时候方便
使用onehot的坑
- 注意预测值的类型,与训练时的类型要保持一致,不然会报错
- 对于新类别,一般不会报错