PNAS:肠道微生物组数据泄露个人信息
科学家们近来发现,可以通过微生物组鉴定一个人的身份,他们将其称为“肠道指纹”。这项研究引起了广泛的关注,人们普遍担心微生物组数据会泄露个人的隐私。
美国国家科学院院刊PNAS杂志五月十一日发表的一项研究显示,研究者可以在匿名的微生物组研究中确定参与者的身份,揭示其健康、饮食和种族信息。4月29日Genome Research杂志发表的一项研究表明,美国NIH所公开的微生物组DNA数据,含有可以进行身份鉴定的人类DNA。
“现在微生物组数据的管理还很原始,”领导PNAS研究的Curtis Huttenhower说。“随着这一领域的快速发展,我们需要认识到个体微生物组是相当独特的。”
基因组研究者们一直在设法解决隐私问题。2013年,Yaniv Erlich领导研究团队利用包含年龄、住址和姓氏的家谱数据库,在千人基因组计划中确定了五个匿名参与者的身份。
微生物组是近年来生物学研究的热点,越来越多的人类微生物组数据成为了公开的资源。Huttenhower等人分析了NIH人类微生物组计划(HMP)的公开数据,在机体不同部位的微生物组中寻找特异性强而且长时间稳定的指标。研究人员发现,粪便样本和菌株水平上的DNA特征最符合要求。
不过Huttenhower指出,“用一项研究中的微生物组数据还很难识别个体的身份”。比较容易泄露隐私的情况是,一个人同时参加了两个不同的微生物组研究,提供了不同的附加信息,比如年龄和健康状态。
值得注意的是,微生物组难免会混入人类DNA,这就存在泄密的风险。尽管NIH已经尽量从HMP数据库清除人类DNA,但Lawrence Livermore国家实验室的计算生物学家Jonathan Allen还是在其中发现了普遍的污染。举例来说,他们发现了可以用于法医鉴定的短串连重复序列。直到NIH去除了这些序列,Genome Research杂志才同意发表Allen等人的文章。
目前,根据微生物组数据确定个体身份的可能性还很低,不过研究者们需要采取一定的隐私保护措施,Erlich说。那些参与HMP的人必须了解这一风险,“但人们现在还不需要为此感到恐慌”,Baylor医学院的生物伦理学家Amy McGuire说。
过度反应会阻碍我们对微生物组的理解,NIH国家人类基因组研究所的政策主管Laura Rodriguez说。只要采取适当的保护措施,“我们将会继续保持数据公开,因为这些数据有着极大的科研价值。”
参阅文献:
Identifying personal microbiomes using metagenomic codes.DOI: 10.1073/pnas.1423854112
Abstract:
Community composition within the human microbiome varies across individuals, but it remains unknown if this variation is sufficient to uniquely identify individuals within large populations or stable enough to identify them over time. We investigated this by developing a hitting set-based coding algorithm and applying it to the Human Microbiome Project population. Our approach defined body site-specific metagenomic codes: sets of microbial taxa or genes prioritized to uniquely and stably identify individuals. Codes capturing strain variation in clade-specific marker genes were able to distinguish among 100s of individuals at an initial sampling time point. In comparisons with follow-up samples collected 30–300 d later, ∼30% of individuals could still be uniquely pinpointed using metagenomic codes from a typical body site; coincidental (false positive) matches were rare. Codes based on the gut microbiome were exceptionally stable and pinpointed >80% of individuals. The failure of a code to match its owner at a later time point was largely explained by the loss of specific microbial strains (at current limits of detection) and was only weakly associated with the length of the sampling interval. In addition to highlighting patterns of temporal variation in the ecology of the human microbiome, this work demonstrates the feasibility of microbiome-based identifiability—a result with important ethical implications for microbiome study design. The datasets and code used in this work are available for download from huttenhower.sph.harvard.edu/idability.