近日,西安交通大学数学与统计学院2016级本科生汪宇豪作为主要参与人撰写的论文“Amortized Variational Deep Q Network”,被国际人工智能顶级会议NeurIPS2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)的Deep Reinforcement Learning Workshop录用。NeurIPS作为学术界、工业界公认的人工智能领域国际顶级会议,代表着当今人工智能研究的最高水平。
该论文聚焦目前机器学习的研究热点——强化学习算法,针对现有算法探索能力不足的问题,创造性地提出了基于均衡变分推断的深度Q网络方法。该方法的主要思想是将Q网络的输出(即动作价值函数)看作随机变量,使用均衡变分推断网络估计该随机变量的后验分布。文中使用了重尾的柯西分布加强探索(exploration),使用细尾的高斯分布加强利用(exploitation)。在gym库中的Atari游戏和马尔科夫链问题上的实验表明,文中的方法比现有深度Q网络有更好的探索能力,在复杂的问题上表现更加突出。相比现有最新的强化学习方法,此方法参数量更少,训练速度更快,探索能力更强。
汪宇豪是我校数学学院2016级本科生,2017年参加了学院组织的赴加拿大阿尔伯塔大学暑期交流项目,大四跟随孙建永教授做毕业设计。在孙老师的引导和启发下,汪宇豪阅读了大量国际前沿领域文章,逐步找到了自己喜欢和探索的领域——强化学习。从论文的前期准备到最终投稿,孙建永老师都给予了极大的支持和鼓励。
近年来,数学学院始终坚持培养具有家国情怀、国际视野,既有扎实数学基础,又突出交叉应用的复合型数学人才,为每一位本科生安排了学业导师,每周对学生进行思想引导和专业指导,组织“数之韵”“数之理”“院士讲数学”等系列讲座,激发学生数学兴趣,提升专业素养。同时,学院搭建高水平科研平台,鼓励学生创新创业,支持学生出国交流,为学生成长成才创造了良好的环境。