9月15日下午,统计与数学学院“相约星期五”学术沙龙活动在上川路校区举行,伦敦政治经济学院史成春博士应邀作题为“Statistical Inference in Reinforcement Learning”的报告。本次活动由学院常务副院长刘伟主持。
史成春博士是伦敦政治经济学院的副教授,目前的研究重点是开发强化学习中的统计学习方法,并将其应用于医疗保健、共享汽车、视频共享和神经成像等方面。他是JRSSB、JASA(理论与方法)和《Journal of Nonparametric Statistics》的副主编,在统计学顶刊JRSSB、JASA、AOS和机器学习顶会“ICML”、“NeurIPS”及顶刊《Journal of Machine Learning Research》等发表论文几十篇。他是2021年英国皇家统计学会研究奖的获得者,并连续三年获得IMS旅行奖。
在报告中,史成春博士首先介绍了强化学习在各领域的发展情况,然后结合自己研究成果介绍了强化学习在精准医疗和共享汽车方面应用的两个实际案例。其一,简单回顾了强化学习的序贯决策过程,介绍了马尔可夫决策过程和马尔可夫假设后,给出了强化学习中对马尔可夫假设的一致性检验方法,提出了向前-向后学习过程,以及在高阶马尔可夫决策过程中达到策略最优的效果,从经验和理论上论证了方法的可行性。其二,在A/B测试方法方面,介绍了传统A/B测试方法不能检测结转效应的局限性,由此运用了在强化学习框架下的动态因果效应评估方法,可以对两个策略的长期奖励进行检验,并且具有允许顺序监控和在线更新,包括马尔可夫设计、交替时间间隔设计和自适应设计等优势。
报告结束后,与会教师与史成春博士进行了热烈的交流互动,并期望以后能有更深入的学习机会。通过本次讲座,与会教师均表示受益良多,对于强化学习中的统计学习方法有了新的认知,拓宽了学术视野。
(文字:唐一鸣 照片:张霭琳)