具有不平衡数据的机器学习 | Machine Learning with Imbalanced Data

学习对数据进行过采样和欠采样,应用SMOTE、集成方法和成本敏感学习。
讲师:Soledad Galli

双语资源中英文字幕学习课程,独家翻译制作,提供全部配套课程资料。全网最低价享受高品质课程资源,无限分享下载。

你将会学到什么?

  • 应用随机欠采样从大多数类别中删除观测值
  • 通过删除难以分类的观测结果进行欠采样
  • 通过在类分离边界处保留观测值进行欠采样
  • 应用随机过采样来扩充少数类
  • 创建合成伦理数据以增加少数族裔的例子
  • 实现SMOTE及其变体以综合生成数据
  • 使用集成方法和采样技术来提高模型性能
  • 更改通过模型优化的失误分类成本,以适应少数类别
  • 使用最适合不平衡数据集的指标确定模型性能

课程要求

  • 机器学习基本算法知识,即回归、决策树和最近邻居
  • Python编程,包括熟悉NumPy、Pandas和Scikit学习
  • Python和Jupyter笔记本电脑安装

课程说明

欢迎使用不平衡数据集的机器学习。在本课程中,您将学习多种技术,这些技术可以用于不平衡的数据集,以提高机器学习模型的性能。

如果你现在正在处理不平衡的数据集,并且想提高模型的性能,或者你只是想了解更多关于如何解决数据不平衡的信息,本课程将向你展示如何。

我们将带您逐步完成引人入胜的视频教程,并教您关于处理不平衡数据集所需了解的一切。在这门全面的课程中,我们涵盖了几乎所有可用的处理不平衡数据集的方法,讨论了它们的逻辑、在Python中的实现、它们的优点和缺点,以及使用该技术时的注意事项。具体而言,您将学习:

  • 随机抽样方法不足或侧重于突出某些样本群体
  • 随机过采样方法以及根据现有观测结果创建新示例的方法
  • 利用多个弱学习者的能力结合采样技术来提高模型性能的集成方法
  • 对成本敏感的方法,对少数群体的错误决策进行更严厉的惩罚
  • 在不平衡数据集上评估模型性能的适当指标

课程结束时,您将能够决定哪种技术适合您的数据集,和/或应用并比较不同方法在多个数据集上返回的性能改进。

这门全面的机器学习课程包括50多场讲座,跨度超过10个小时的视频,所有主题都包括动手操作的Python代码示例,您可以使用这些示例进行参考和实践,并在自己的项目中重复使用

此外,代码会定期更新,以跟上新趋势和新的Python库发布。

那你还在等什么?立即注册,学习如何处理不平衡的数据集并构建更好的机器学习模型

此课程面向哪些人?

  • 数据科学家和机器学习工程师处理不平衡数据集
  • 希望提高在不平衡数据集上训练的模型性能的数据科学家
  • 想要学习机器学习中间内容的学生
  • 多班目标不平衡的学生
声明:双语资源网(shuangyuziyuan.com)提供的所有课程、素材资源全部来源于互联网,用户赞助仅用于对双语资源服务器带宽及网站运营等费用支出做支持,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。