蛋白质维系生命运转,在人体结构和功能中发挥着重要作用。但这些大分子的光环掩盖了一类名为微蛋白的小型蛋白家族。微蛋白隐藏在99%被认定为"非编码"的DNA区域,尽管体积微小,它们对健康和疾病的影响却不容忽视。
索尔克研究所科学家开发出名为ShortStop的计算工具,首次系统性探索基因组暗区的微蛋白。该工具能分析遗传数据库,定位可能编码微蛋白的DNA序列,并预测具有生物学意义的目标蛋白,显著提升健康与疾病相关微蛋白的发现效率。通过肺癌数据集验证,该工具已发现210个新的微蛋白候选物,包括一个可验证的COL1A1-MP微蛋白,未来可能成为重要治疗靶点。
"人体中大部分蛋白质已被充分研究,但最新发现表明我们遗漏了数千个隐藏的小型微蛋白。"索尔克研究所教授Alan Saghatelian表示,"传统方法仅关注编码大蛋白的DNA区域,而我们正在重新认知这些'垃圾DNA'区域的重要性——它们产生的微蛋白可能在健康调节中发挥关键作用。"
在《BMC方法》期刊发表的研究中,研究团队指出ShortStop解决了微蛋白研究的两大难题:缺乏可扩展的表征工具和标准化负训练数据集。相较于常规蛋白质数百至上千个氨基酸的长度,微蛋白通常不足150个氨基酸,这使其难以通过传统方法检测。尽管人类UniProt/Swiss-Prot数据库收录了2万余个蛋白质,但仅有约10%属于微蛋白。
ShortStop通过计算框架革新传统工作流程,其核心技术在于基于机器学习系统的双分类机制。该系统采用计算机生成的随机smORFs作为阴性对照数据集,能够将微蛋白分为功能性和非功能性两类。研究人员将新发现的smORFs与虚拟样本比对,快速判定其功能性概率。
"ShortStop的神奇之处在于它能兼容RNA测序等通用数据类型。"研究第一作者Brendan Miller博士表示,"这让我们可以大规模筛查健康与病变组织中的微蛋白,为癌症和阿尔茨海默病研究开辟新路径。"在肺癌肿瘤与正常组织的对比研究中,团队发现COL1A1-MP微蛋白在肿瘤组织中显著高表达,提示其作为生物标志物的潜力。
研究团队强调,ShortStop并非独立解决方案,而是帮助研究人员优先筛选功能研究候选对象的计算框架。该工具为微蛋白发现提供了系统方法,既支持功能性研究优先排序,也为领域方法开发和基准测试奠定基础。目前索尔克研究所团队正利用该工具分析阿尔茨海默病和肥胖症相关数据,期待更多突破性发现。
【全文结束】

