Python中的实用多臂强盗算法

获得技能,建立能够在不确定性下自适应做出关键业务决策的数字人工智能代理。
讲师:Edward Pie

中英文字幕单独处理,翻译流畅,课程资料包齐全!

你将会学到什么?

  • 理解并能够识别多武装土匪问题。
  • 将实际业务问题建模为MAB,并实施数字人工智能代理以实现自动化。
  • 了解RL在勘探开发困境方面的挑战。
  • 实际执行各种算法策略,以平衡探索和开发之间的关系。
  • epsilon贪婪策略的Python实现。
  • Softmax探索策略的Python实现。
  • 乐观初始化策略的Python实现。
  • Python实现的上限置信度(UCB)策略。
  • 了解RL在奖励功能设计和样本效率方面的挑战。
  • 通过增量采样估计动作值。

课程内容

2 个章节 • 23 个讲座 • 总时长 5 小时 28 分钟

课程要求

  • 能够理解基本的Python面向对象程序。
  • 具备基本的Numpy和Matplotlib知识。
  • 基本的代数技能。如果你知道如何加、减、乘、除数字,你就可以开始了。

课程说明

本课程是您进入令人兴奋的强化学习领域的完美切入点,在该领域中,构建数字人工智能代理以自动学习如何通过试错做出顺序决策。具体来说,本课程侧重于多武装强盗问题和各种算法策略的实际动手实施,以平衡探索和开发之间的关系。每当您希望随着时间的推移始终如一地从有限数量的选项中做出最佳选择时,您正在处理多武装强盗问题,本课程教你需要知道的每一个细节,以便能够建立现实的业务代理来处理此类情况。

通过非常简洁的解释,本课程教你如何自信地将看似可怕的数学公式转换为Python代码。我们知道,没有多少人在技术上擅长数学,所以这门课有意避开数学,除非它是必要的。即使有必要讨论数学,本课程所采用的方法也是这样,任何具有基本代数技能的人都可以理解,最重要的是,可以轻松地将数学转化为代码,并在此过程中建立有用的直觉。

本课程中教授的一些算法策略是Epsilon贪心,Softmax探索,乐观初始化,上置信度限和汤普森抽样。有了这些工具,您就可以轻松构建和部署人工智能代理,以处理不确定情况下的关键业务操作。

为了弥合理论与应用之间的差距,我更新了这门课程,包括一个部分,我展示了如何使用EV3 Mindstorm在机器人技术中应用MAB算法。我很快就会上传一节,展示如何应用本课程中教授的算法来优化广告。

此课程面向哪些人?

  • 任何具有基本Python技能的人都希望开始强化学习。
  • 有经验的人工智能工程师、机器学习工程师、数据科学家和软件工程师,希望将强化学习应用于实际业务问题。
  • 愿意学习强化学习如何帮助自动化自适应决策过程的商业专业人士。
声明:双语资源网(shuangyuziyuan.com)提供的所有课程、素材资源全部来源于互联网,用户赞助仅用于对双语资源服务器带宽及网站运营等费用支出做支持,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。