萨尔克研究所
美国拉荷亚(2025年7月31日)——蛋白质维系着人类生命的基本功能,在人体结构与生理活动中发挥重要作用。但这些大分子的"阴影"下却隐藏着一类更小的蛋白质——微蛋白。这类微蛋白长期湮没在99%被视作"非编码"的DNA区域中,蛰伏于未探索的广阔基因组暗区。尽管体积微小,它们对生命的影响却可能与大蛋白相当。
萨尔克研究所科学家正利用新开发的ShortStop工具深入探索基因组暗区,寻找神秘的微蛋白。该工具可扫描遗传数据库,精准识别基因组中可能编码微蛋白的DNA片段。重要的是,ShortStop能预测哪些微蛋白最可能具有生物学意义,显著提升与健康疾病相关微蛋白的筛选效率。
这项新技术为现有基因数据集带来突破性洞见,成功定位了此前无法发现的微蛋白。研究团队已运用该工具分析肺癌数据集,发现210个全新微蛋白候选目标,其中一种经验证的微蛋白未来可能成为重要治疗靶点。
该研究成果于2025年7月31日发表在《BMC方法》期刊。
"人体绝大多数蛋白质已被充分研究,但最新发现表明基因组中可能遗漏了数千种小型隐藏蛋白——即微蛋白。"资深作者艾伦·萨格哈提安教授指出:"过去科学家仅关注编码大蛋白的DNA区域,将其他区域视为'垃圾DNA',现在我们认识到这些区域具有关键作用,其生成的微蛋白可能在调控健康与疾病中发挥核心作用。"
微蛋白研究难点
微蛋白的检测与编目极具挑战性,主要因其分子体积过小。标准蛋白质通常由数百至数千个氨基酸组成,而微蛋白通常少于150个氨基酸,常规蛋白质分析方法难以捕捉。因此科学家转而通过大规模公共数据库寻找其DNA编码序列。
研究发现特定DNA区域"小开放阅读框"(smORFs)可能包含微蛋白编码指令。现有实验方法虽已编录数千个smORFs,但耗时且昂贵。更关键的是,现有工具无法区分功能性与非功能性微蛋白,严重阻碍其发现与表征进程。
ShortStop工作原理
并非所有smORFs都能产生有生物学意义的微蛋白。传统方法无法辨别功能性与非功能性微蛋白,迫使科学家必须逐个验证。ShortStop革命性地改变了这一流程:通过机器学习系统将smORFs分为功能性和非功能性两类。
该系统的突破性在于采用计算生成的随机smORFs作为阴性对照数据集进行训练。当识别新smORF时,ShortStop通过与对照数据对比快速判定其功能性概率。虽然不能100%确定smORF是否编码功能蛋白,但这种二元分类系统极大缩小了实验范围。
应用ShortStop分析既有smORF数据集时,研究团队识别出8%的候选微蛋白具有潜在功能,这些将成为重点研究对象。系统还能发现其他方法遗漏的微蛋白,其中一种已通过人体细胞和组织检测得到验证。
"ShortStop的强项在于兼容常见数据类型如RNA测序数据,这正是众多实验室的日常工具。"论文第一作者布伦丹·米勒博士指出:"这意味着我们可以大规模筛查健康与病变组织中的微蛋白,这将为人类生物学带来新认知,开辟癌症和阿尔茨海默症等疾病的诊断治疗新途径。"
肺癌微蛋白发现
研究团队已运用ShortStop发现肺癌相关微蛋白。通过分析人肺肿瘤及邻近正常组织的基因数据,建立潜在功能smORFs清单。在发现的微蛋白中,有一个在肿瘤组织中表达量显著升高,提示其可能成为肺癌生物标志物或治疗靶点。
这个肺癌相关微蛋白的发现,印证了ShortStop与机器学习在优先筛选研究候选目标方面的价值。"现有海量数据现在可通过ShortStop发掘出与健康疾病相关的新微蛋白,范围涵盖阿尔茨海默症到肥胖症等众多领域。"萨格哈提安强调:"我们团队擅长开发方法,结合萨尔克研究所其他团队的数据,能够整合方法加速科学进程。"
其他研究者包括萨尔克研究所的埃杜阿尔多·维埃拉·德索萨、维克托·佩、琼·沃恩、卡尔文·劳、乔琳·迪德里希,以及加州大学洛杉矶分校的霍森·金。
本研究获得美国国立卫生研究院(P30CA014195, R01GM102491)和克莱顿医学研究基金会资助。
【全文结束】

