学术活动

首页 - 学术活动 - 正文
【学术预告】迁移学习在利用异质性GWAS汇总数据改善遗传效应量估计中的应用
来源:数学与统计学学院    时间: 2024-10-16


 :Transfer learning for improving the genetic effect size estimation with accommodating heterogeneous GWAS summary data

题目翻译:迁移学习在利用异质性GWAS汇总数据改善遗传效应量估计中的应用

报告专家:李启寨 研究员,中国科学院数学与系统科学研究院

   间:2024101815:00 — 17:00

   点:9-309会议室

报告摘要: In Genome-wide association studies (GWAS), summary statistics have become one of the most popular formats for data sharing and analyzing. This paper focuses on utilizing GWAS summary statistics as auxiliary data to enhance the estimation efficiency of Polygenic risk score (PRS) models. Existing methods heavily rely on the complete homogeneity assumption that all studies are under the same parametric model, which is unrealistic given the diverse populations studied in different GWAS. Biological evidence suggests that risk variants can have different effect sizes in different populations. To address this limitation, we introduce SS-trans, a novel framework that effectively leverages heterogeneous summary data from external studies to enhance statistical analysis in the internal study of interest. Unlike existing approaches, our framework relaxes the requirement of complete homogeneity and only necessitates partial parameter similarity across studies. Our theoretical analysis demonstrates significant improvements in estimation accuracy within the internal study, even when external studies exhibit only local similarity.  The advantage of the proposed framework is also supported by extensive numerical experiments on both synthetic data and real data of Gene Environment Association Studies type 2 diabetes dataset.

摘要翻译:在全基因组关联研究(GWAS)中,汇总统计已成为数据共享和分析中最常见的方法之一。本研究利用GWAS汇总统计作为辅助数据,以提高多基因风险评分(PRS)模型的估计效率。目前的方法大多依赖于完全同质性假设,即所有研究均在相同的参数模型下,这在不同GWAS研究多样化人群的情况下显得不切实际。生物学证据表明,风险变异在不同人群中可能具有不同的效应大小。为了解决这一局限性,本研究提出了SS-trans,这是一种新颖的框架,能够有效利用外部研究中异质的汇总数据,增强对研究对象内部研究的统计分析。与现有方法不同,本研究的框架放宽了对完全同质性的要求,仅需各研究间存在部分参数相似性。本研究的理论分析显示,即使外部研究仅表现出局部相似性,内部研究的估计准确性也显著提高。这一框架的优势还通过对合成数据及实际的基因与环境关联研究类型2糖尿病数据集进行的广泛数值实验得到了验证。

专家简介:李启寨,中国科学院数学与系统科学研究院研究员,系统科学研究所副所长,美国统计学会会士(ASA Fellow, 2020),国际统计学会推选会员(ISI Elected Member, 2016); 2001年本科毕业于中国科学技术大学,2006年博士毕业于中国科学院数学与系统科学研究院,2006-2009年在美国国立卫生健康研究院(NIH)国家癌症研究所(NCI)从事博士后研究;研究方向包括生物医学统计、遗传统计、复杂数据的统计推断等,在Nature Genetics, Science Advances, Angewandte Chemie-International Edition, Cancer Research, Bioinformatics, AJHG, IEEE TPAMI, JASA, JRSSB, Biometrics等期刊发表SCI论文110余篇;主持及曾主持国家自然科学基金委项目4项(杰青、优青、面上、青年);现任中国数学会常务理事、中国现场统计研究会常务理事等。