开放人工智能公司的历史与未来
如果您像我一样,当初正是通过ChatGPT才真正开始关注"人工智能"这个概念——那么您可能会对开放人工智能公司(OpenAI)的发展历程有新的认识。
前麻省理工科技评论与华尔街日报科技记者凯伦·郝在其新书《AI帝国:山姆·奥特曼开放人工智能的梦想与噩梦》中,详细记录了OpenAI追求通用人工智能(AGI)的全过程。书中披露:GPT-2的训练数据来自优质文章与网页的精选集,但到了GPT-3阶段,开发者不得不扩大数据来源,纳入维基百科英文内容和可疑的盗版书籍数据库。即便如此仍不满足,开发者转而使用Common Crawl网络爬虫数据集(过滤最低质量内容)。当GPT-4需要更多数据时,公司甚至放弃了数据质量过滤,并开始抓取YouTube视频的文字稿。
在谈到健康数据安全时,郝特别警告读者不要将个人医疗信息上传到ChatGPT:"人工智能公司正试图像社交媒体公司那样最大化用户粘性,因为他们已经耗尽了训练数据。他们正在直接从用户那里获取数据——这是比网络爬取更直接的数据来源。"
郝指出,ChatGPT的免费版本实为数据收集策略。"任何公司都能爬取互联网数据,但通过对话获取的用户数据是竞争对手无法获得的独特资源。"
人工智能与医疗承诺的现实落差
OpenAI自创立之初就承诺:"构建AGI将改善每个人的医疗条件"。这种说法已成为AGI开发者的教条,宣称未来AI将"治愈癌症""使心理治疗既便宜又高效"。但实际情况是,这家成立近十年的公司尚未在医疗普惠方面取得实质性进展。其聊天机器人频繁产生医疗错误信息,反观其他AI应用——如癌症早筛和药物研发已取得显著成果。
当问及如何区分AI承诺与现实时,郝强调应审视技术发展轨迹:"如果OpenAI真想推动医疗进步,他们早该实现。现有证据显示,与生成式大模型不同,专注特定任务的小型深度学习模型已能显著提升癌症与神经退行性疾病的早期检测准确率。"
技术评估的科学标准
关于AGI医疗应用的炒作,郝引用《纽约时报》报道指出:在人工智能促进协会的最新调查中,超过四分之三的受访者认为现有技术路径难以实现AGI。她批评硅谷通过财务激励营造"AGI近在咫尺"的假象,实际上科学家对此存在巨大争议。
"当公司承诺AI将攻克癌症时,他们知道人们愿意为此悬置怀疑。但我们需要清醒认识到:当前技术距离实现这些承诺尚有距离。真正的医疗突破需要扎实的科学研究,而不是单纯依赖生成式AI的愿景。"
【全文结束】

