报告主题:单次分布式聚类
时间:2026年3月26日10:00-11:00
地点:1-218
报告人:王昱栋
报告内容简介:
基于混合模型的概率聚类在生物医学研究中得到广泛应用。随着多站点数据的日益普及,跨站点的联合分析为提高聚类方法的效率和普适性提供了机遇。然而,数据共享限制和站点间异质性给多站点概率聚类带来了重大挑战。为了解决站点间异质性问题,我们提出了一种异质性混合模型,该模型允许不同站点共享相同的混合组分,但具有站点特定的混合比例。这种结构既考虑了站点层面的异质性,又利用了跨站点的共享信息。
由于数据共享限制,这种异质性混合模型的分布式推断具有挑战性。一个潜在的方法是采用分布式期望最大化(EM)算法进行联邦极大似然估计(MLE)。然而,现有的分布式EM算法需要在每次迭代中进行跨站点通信,导致大量的人员和时间通信开销。在本次演讲中,我们介绍了一种新型的单次分布式EM算法,用于实现异质性混合模型的通信高效推断。我们提供了理论保证,证明我们的方法仅需一轮跨站点通信即可达到全样本效率。通过对多站点电子健康档案(EHR)数据的应用分析,我们展示了该方法如何实现高效的概率聚类并促进精准干预。
主讲人简介:
王昱栋于2023年在新加坡国立大学获得统计学博士学位,2023年至2025年期间,他在宾夕法尼亚大学生物统计、流行病学与信息学系担任博士后研究员。其研究方向包括分布式推断、迁移学习、半参数方法及工业统计。
