- 莫烦机器学习教程
- 有趣的机器学习
- 机器学习 (Machine Learning)
- 神经网络 (Neural Network)
- 卷积神经网络 CNN (Convolutional Neural Network)
- 循环神经网络 RNN (Recurrent Neural Network)
- LSTM RNN 循环神经网络 (LSTM)
- 自编码 (Autoencoder)
- 检验神经网络 (Evaluation)
- 特征标准化 (Feature Normalization)
- 选择好特征 (Good Features)
- 激励函数 (Activation Function)
- 过拟合 (Overfitting)
- 加速神经网络训练 (Speed Up Training)
- 处理不均衡数据 (Imbalanced data)
- 批标准化 (Batch Normalization)
- L1 / L2 正规化 (Regularization)
- 强化学习 (Reinforcement Learning)
- 强化学习方法汇总 (Reinforcement Learning)
- Q Leaning
- Sarsa
- Sarsa(lambda)
- DQN
- Policy Gradients
- Actor Critic
- Deep Deterministic Policy Gradient (DDPG)
- Asynchronous Advantage Actor-Critic (A3C)
- 强化学习教程
- Why?
- 课程要求
- 小例子
- Q-learning 算法更新
- Q-learning 思维决策
- Sarsa 算法更新
- Sarsa 思维决策
- Sarsa-lambda
- DQN 算法更新 (Tensorflow)
- DQN 神经网络 (Tensorflow)
- DQN 思维决策 (Tensorflow)
- OpenAI gym 环境库 (Tensorflow)
- Double DQN (Tensorflow)
- Prioritized Experience Replay (DQN) (Tensorflow)
- Dueling DQN (Tensorflow)
- Policy Gradients 算法更新 (Tensorflow)
- Policy Gradients 思维决策 (Tensorflow)
- Actor Critic (Tensorflow)
- Deep Deterministic Policy Gradient (DDPG) (Tensorflow)
- Asynchronous Advantage Actor-Critic (A3C) (Tensorflow)
- TensorFlow 教程
- 为什么选 Tensorflow
- 安装
- 神经网络在干嘛
- 处理结构
- 例子 2
- Session 会话控制
- Variable 变量
- Placeholder 传入值
- 激励函数 Activation Function
- 例子 3 添加层 def add_layer()
- 例子 3 建造神经网络
- 例子 3 结果可视化
- 优化器 optimizer
- Tensorboard 可视化好帮手 1
- Tensorboard 可视化好帮手 2
- Classification 分类学习
- Dropout 解决 overfitting
- CNN 卷积神经网络 1
- CNN 卷积神经网络 2
- CNN 卷积神经网络 3
- Saver 保存读取
- RNN 循环神经网络
- RNN LSTM 循环神经网络 (分类例子)
- RNN LSTM (回归例子)
- RNN LSTM (回归例子可视化)
- 自编码 Autoencoder (非监督学习)
- scope 命名方法
- Batch Normalization 批标准化
- PyTorch 教程
- Why?
- 安装
- Torch 或 Numpy
- 变量 (Variable)
- 激励函数 (Activation)
- 关系拟合 (回归)
- 区分类型 (分类)
- 快速搭建法
- 保存提取
- 批训练
- Optimizer 优化器
- CNN 卷积神经网络
- RNN 循环神经网络 (分类)
- RNN 循环神经网络 (回归)
- AutoEncoder (自编码/非监督学习)
- DQN 强化学习
- GAN (Generative Adversarial Nets 生成对抗网络)
- 为什么 Torch 是动态的
- GPU 加速运算
- Dropout 缓解过拟合
- Batch Normalization 批标准化
- Theano 教程
- Why?
- 安装
- 神经网络在做什么
- 基本用法
- Function 用法
- Shared 变量
- Activation function 激励函数
- 定义 Layer 类
- Regression 回归例子
- 可视化结果 回归例子
- Classification 分类学习
- Regularization 正规化
- Save 保存 提取
- 总结和更多
- Keras 教程
- Why?
- 安装
- 兼容 backend
- Regressor 回归
- Classifier 分类
- CNN 卷积神经网络
- RNN Classifier 循环神经网络
- RNN Regressor 循环神经网络
- Autoencoder 自编码
- Save & reload 保存提取
- Scikit learn 教程
- Why?
- 安装
- 选择学习方法
- 通用学习模式
- sklearn 强大数据库
- sklearn 常用属性与功能
- 正规化 Normalization
- 交叉验证 1 Cross-validation
- 交叉验证 2 Cross-validation
- 交叉验证 3 Cross-validation
- 保存模型
处理不均衡数据 (Imbalanced data)
作者: Morvan 编辑: Morvan
今天我们会来聊聊在机器学习中常会遇到的问题. 满手都是不均衡数据。
注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章。
什么是不均衡数据
不均衡数据的形式很简单. 这里有苹果和梨,当你发现你手中的数据对你说,几乎全世界的人都只吃梨,如果随便抓一个路人甲,让你猜他吃苹果还是梨,正常人都会猜测梨。
不均衡的数据预测起来很简单. 永远都猜多的那一方面准没错. 特别是红色多的那一方占了 90%. 只需要每一次预测的时候都猜红色,预测准确率就已经达到了相当高的 90%了. 没错,机器也懂这个小伎俩. 所以机器学到最后,学乖了,每次都预测多数派. 解决的方法有几种,我们来谈谈。
获取更多数据
首先,我们要想想,自己还能不能获取到更多的数据. 有时候只是因为前段时期的数据多半呈现的是一种趋势,等到后半时期趋势又不一样了. 如果没有获取后半时期的数据,整体的预测可能就没有那么准确了。
更换评判方式
通常,我们会用到 准确率 accuracy, 或者误差 cost 来判断机器学习的成果. 可是这些评判方法在不均衡数据面前,高的准确率和低的误差变得没那么重要. 所以我们得换一种方式评判. 通过 confusion matrix 来计算 precision 和 recall, 然后通过 precision 和 recall 再计算 f1 分数.这种方式能成功地区分不均衡数据,给出更好的评判分数. 因为时间关系,具体的计算不过程就不会在这里提及。
重组数据
第三种方法是最简单粗暴的方法之一. 重新组合不均衡数据,使之均衡. 方式一: 复制或者合成少数部分的样本,使之和多数部分差不多数量. 方式二: 砍掉一些多数部分,使两者数量差不多。
使用其他机器学习方法
如果使用的机器学习方法像神经网络等,在面对不均衡数据时,通常是束手无策. 不过有些机器学习方法,像决策树, decision trees 就不会受到不均很数据的影响。
修改算法
这个简介视频的最后一种方法是让自己变得有创造力,尝试修改算法. 如果你用的是 Sigmoid 的激励函数, activation function, 他会有一个预测门槛,一般如果输出结果落在门槛的这一段,预测结果为梨,如果落在这一段,预测结果为苹果,不过因为现在的梨是多数派,我们得调整一下门槛的位置,使得门槛偏向苹果这边,只有很自信的时候,模型才会预测这是苹果. 让机器学习,学习到更好的效果。
如果你觉得这篇文章或视频对你的学习很有帮助,请你也分享它,让它能再次帮助到更多的需要学习的人。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论