11月22日下午,上海交通大学许志钦博士应邀在上川路校区第一教学楼218会议室作题为“现象驱动理解语言模型的推理与记忆”的学术报告。本次活动由学院副院长邓桂丰主持,各系部教师代表参加。
许志钦是上海交通大学自然科学研究院、数学科学学院长聘教轨副教授。2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。研究兴趣为深度学习的基础领域。现为Journal of Machine Learning的managing editor。
在报告中,许志钦博士从现象驱动的角度切入,介绍了神经网络在非线性训练区域的凝聚现象,即同层神经元具有倾同的现象。当模型参数在训练初始化阶段的尺度越小,凝聚现象会越明显。凝聚能够降低模型的有效复杂度。基于此,发现参数初始化对模型的推理和记忆有显著影响。当Transformer的网络参数初始化较大时,有效复杂度大,模型有足够大的复杂度能够记忆数据。当初始化较小时,参数凝聚使网络的有效复杂度显著降低。为了满足低复杂度的限制,网络通过学习尽量少的规律,结合推理的方式拟合数据。
报告结束后,参会教师与许志钦博士展开了热烈的交流互动。本次报告拓宽了参会教师的学术视野,有助于增进交流合作。
(图片:邱梦凡,文字:郭岚)