学科科研

【学术讲座-第49期“相约星期五”学术沙龙】现象驱动理解语言模型的推理与记忆

发布日期:2024-11-18 11:04:35   来源:统计与数学学院   点击量:


报告主题:现象驱动理解语言模型的推理与记忆

时间:2024年11月2213:00-14:00

地点上川路校区第一教学楼218会议室

报告人:许志钦

报告内容简介:

本报告将从现象驱动的角度切入,介绍神经网络在非线性训练区域的凝聚现象,即同层神经元具有倾同的现象。当模型参数在训练初始化阶段的尺度越小,凝聚现象会越明显。凝聚能够降低模型的有效复杂度。基于此,我们发现参数初始化对模型的推理和记忆有显著影响。当Transformer的网络参数初始化较大时,有效复杂度大,模型有足够大的复杂度能够记忆数据。当初始化较小时,参数凝聚使网络的有效复杂度显著降低。为了满足低复杂度的限制,网络通过学习尽量少的规律,结合推理的方式拟合数据。

主讲人简介:

许志钦,上海交通大学自然科学研究院/数学科学学院长聘教轨副教授。2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。 2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。研究兴趣为深度学习的基础领域。现为Journal of Machine Learning的managing editor。

分享到: