想象一下,在不久的将来你会收到这样一封电子邮件:“感谢您于2025年5月22日与美国数据集体共享数据。在首次与SprintAI(一家专注于为残疾运动员设计鞋子的本地初创公司)分享您的锻炼数据后,您的数据捐赠也被发送到一个由区域大学托管的人工智能研究集群。您的捐赠正在加速人工智能创新,并支持研究人员和创新者解决紧迫的公共需求!”
这正是如果我们把个人数据捐赠视为献血这种亲社会行为时,你可能会收到的信息。这种行为可能不会立即满足捐赠者的个人需求,但可以造福整个社区。这种未来愿景并不是科幻小说——如果解决了当今创新者面临的瓶颈问题,它完全有可能成为现实。
创建类似于血库的数据库可能看起来不是迫切需要或人们应该自愿贡献的事情,特别是考虑到人们对少数大型人工智能公司利用数据追求利润驱动和社会有害目的的广泛担忧。这种对AI生态系统的狭隘看法忽略了数百个急需高质量数据的AI研究项目和初创公司。我很幸运地在得克萨斯州奥斯汀市举行的Meta开源AI峰会上见到了这些新兴AI项目的领导者。例如,我遇到了Matt Schwartz,他领导着一家依靠AI从结肠镜检查中获取更多诊断信息的初创公司。我还联系了加州大学旧金山分校威尔神经科学研究所的神经外科教授Edward Chang,他依赖AI工具发现关于大脑如何工作及其原因的新信息。我还认识了Corin Wagen,他的初创公司帮助公司“更快地找到更好的分子”。这只是利用AI实现客观良好结果的一小部分人。他们需要你的帮助。更具体地说,他们需要你的数据。
我们当前的数据基础设施存在一个悲剧性的讽刺。我们大多数人将大量数据分享给大型且盈利的私人实体——智能手表公司、饮食应用程序、游戏开发商和社交媒体公司。然而,AI实验室、学术研究人员和公共利益组织最有可能利用我们的数据为公共利益服务,但他们往往面临获取必要数量、质量和多样性的数据的最大障碍。与OpenAI不同,他们不会使用机器人从互联网上抓取数据。与谷歌和Meta不同,他们不能依赖自己的社交媒体平台和搜索引擎作为永久的数据生成器。与Anthropic不同,他们没有资金从媒体机构购买数据许可。因此,虽然商业实体通过消费者服务和专有数据获取策略积累了庞大的数据集,但致力于公共问题的任务驱动型AI项目发现自己处于长期的数据稀缺状态。这不仅是一个障碍,还是一个系统性瓶颈,扼杀了社会最需要的创新,延迟甚至阻止了能够显著改善生活的AI工具的发展。
个人越来越不愿意分享个人信息,这是理所当然的,因为对隐私、安全和潜在滥用的担忧既普遍又经常被过去的违规行为和不透明做法所证明。然而,在一个引人注目的矛盾中,大量的个人数据不断被应用程序开发人员、技术平台以及通常不透明的数据经纪人网络持续抽取。这种做法通常缺乏透明度,也没有充分告知数据的全生命周期和下游使用情况。这种缺乏透明度还延伸到训练这些数据的算法如何做出影响个人生活的决策——从贷款申请到就业前景——通常没有明确的救济途径或理解,可能会延续历史数据中嵌入的现有社会偏见。
以OMNY Health为例,这是一家位于佐治亚州的健康数据平台。它已经令人印象深刻地编译了一个包含约8500万去标识化患者记录和40亿临床笔记的数据集,涵盖了200个专业领域。这个丰富的存储库通过一个安全平台提供,使用户能够访问多样化和详细的临床信息。研究人员和健康科技公司已经依赖这些数据来训练AI模型,以实现多个有益的目标,如提高疾病预测率和增加临床试验中的多样性和代表性。这些有价值的进展展示了大规模数据聚合的力量。
OMNY Health的例子也揭示了当前模式的一个关键限制:尽管这些强大的数据集经过去标识化处理,但仍属于专有数据。访问权限主要提供给付费客户。尽管这种模式服务于某些研究兴趣,但它本质上限制了更广泛的非营利研究人员、公共卫生机构和小型使命驱动型初创公司,这些机构本可以利用这些数据进行公共倡议,但缺乏所需的重大财务资源。因此,当前模式主要惠及私营企业和那些能够参与数据市场的实体,无意中剥夺了许多可能产生深远社会效益的AI应用的机会,如果数据能够更公平地获取和共享,并在旨在实现更广泛社会收益的框架下进行。
为了充分发挥AI在广泛社会利益方面的潜力,我们不仅迫切需要新的技术框架,还需要我们在数据共享方面文化规范的根本转变。我们必须培养一种理解,即为公共利益倡议分享特定、同意的数据应被视为一种强有力的亲社会贡献,类似于社会对献血的看法。数据捐赠是关于培养对可以解决我们共同问题的数据的集体所有权和责任感。
想象一个强大且伦理基础牢固的“数据捐赠者”系统。个人可以主动同意分享特定、明确定义的匿名或伪匿名数据字段——包括用于城市规划的移动模式、用于医学研究的去标识化基因序列,甚至汇总的购买习惯以了解经济趋势并制定公共政策——与经过严格审查的初创公司、学术机构和非营利组织。这些实体不仅会根据其技术能力进行审查,还会根据其伦理框架、数据安全实践和对公共利益成果的明确承诺进行审查。关键的区别在于这些接收实体透明地承诺开发AI产品和持续研究,旨在直接解决公共问题。设想一个场景,一个非营利AI实验室利用数据捐赠者的汇总健康指标,开发出针对罕见疾病的突破性诊断工具,这些疾病可能被商业利益忽视。或者考虑一个学术联盟,利用公民自愿分享的匿名能源消耗模式和环境传感器数据,构建复杂的模型来预测和缓解气候变化的局部影响,这些公民直接投资于结果。
例如,您的智能手表健身应用的匿名数据,可以在您的明确和持续许可下,不仅流向应用程序的商业开发者以改进产品,还可以流向一个可信、独立且非营利的AI研究机构。这样的机构反过来可以致力于创造新的预防心血管健康干预措施,或了解人群活动趋势以指导公共卫生宣传活动。
如何培育和维持这样一个系统?除了呼吁利他主义(这对许多人来说是一个强大的动机)外,个人还可以获得切实的好处,例如以折扣价或免费访问他们帮助创建的AI驱动的公共利益工具。更创新的模式甚至可以探索授予数据捐赠者微股份、数据红利或其他形式的认可和收益,从成功训练他们的数据并部署有影响力解决方案的实体那里获得。这将以更具体的方式承认数据捐赠者的贡献。
任何提议的数据捐赠者系统的可行性和伦理完整性完全依赖于信任、透明度和强有力的独立治理的基础。这要求易于理解的伦理准则,与公众共同制定,最先进的安全协议超越合规,可审计的数据处理实践,以及动态的、以用户为中心的持续同意管理和轻松的数据撤回机制。这种治理可能涉及由伦理学家、专门从事数据权利的法律专家、公民代表和技术专家组成的多利益相关方监督机构。为了补充这些治理机制,透明的审计过程和清晰、可访问的补救机制也应该到位,以防数据被滥用或跨越道德界限。
来自前线的创新者,包括参加开源AI峰会的参与者和世界各地大学实验室的研究人员,传递的信息是明确的:由于缺乏高质量、多样性和代表性的数据集,公共导向的AI工具的大规模开发受到严重阻碍。数据捐赠者模式提供了一条具体的、伦理的和合意的途径,以解锁这一重要资源。它认识到,当负责任地共享并且具有明确的公共目的时,我们的集体数据可以从被动提取和利用的商品转变为强大的、可再生的社会进步引擎——一个能够在前所未有的规模上加速发现和部署解决方案的引擎,促进一个更加公平和可持续的未来。现在是时候有意识地构建一个替代系统,在这个系统中,数据的主要价值不再是商业提取,而是直接民主地为解决人类最紧迫的挑战提供动力。探索和倡导这种必要的演变是我们时代的关键任务,需要大胆的愿景和协作行动。
(全文结束)