多年来,随着人工智能(AI)的进步,许多简单的任务现在已经实现自动化。需求已经转向招聘专家并支付更高的薪水和费率。照片:彭博社
在不丹这个小王国中,数十名数据专家在喜马拉雅山脉壮丽的山峰背景下完善人工智能模型。iMerit的员工并不是在那里训练AI识别图像中的棕色猫。相反,他们正在教授算法人体眼睛的解剖结构或如何检测地理空间地图的变化。这家由三位硅谷亿万富翁支持的公司是越来越多致力于构建更智能、可盈利和可靠的AI版本的企业之一。预计到2030年,这一行业将为全球经济增加近20万亿美元。
随着模型变得越来越智能,大企业正越来越多地寻求利用它们的高度专业化任务,从而催生了数十家专注于跨金融、医疗保健和国防等领域的定制应用程序的数据服务初创公司。这背后有很多利害关系。尽管AI热潮席卷了硅谷,但人们仍对这项技术是否足够有用,能否让世界各地的企业付费并确保AI模型开发人员能够盈利持怀疑态度。当然,英伟达公司通过销售AI芯片成为全球最有价值的公司。但其最大的客户,包括微软公司和Alphabet公司,仍在因构建更先进的AI系统而蒙受巨大损失。
iMerit的创始人兼首席执行官拉达·巴苏将这一过程比作构建互联网、移动电话和其他现代技术平台的软件编码员。“我们是AI革命中的编码员,”这位灰发企业家说,她正准备筹集下一轮融资。将AI提升到高级水平,应用于不相关、敏感甚至有时危险的行业并不容易。这需要一支愿意在其日常工作中添加训练和改进模型任务的人类专家团队。
在肯尼亚,一家初创公司正在开发技术,以扫描灌木丛寻找偷猎者的迹象。在哈萨克斯坦,医学专家正在教授模型识别肺癌早期阶段的方法。在印度、韩国、越南等地,每小时赚取65美元的语言学家正在帮助模型掌握除英语以外的语言。iMerit在不丹、印度和新奥尔良雇用了5000人,23岁的叶希·旺莫来自一个农民家庭,她花了数年时间精通一项任务:在玉米和棉花田的广阔图像中正确识别杂草和碎片。旺莫和她的同事们身着色彩鲜艳的不丹传统服饰,帮助像蓝河技术公司(Deere & Co.的子公司)这样的公司构建算法,提高喷洒农药和肥料的准确性,减少使用量高达90%。
“我们看到公司正在解决越来越先进但也越来越细分的问题,”数据标注解决方案公司Datasaur Inc.的创始人兼首席执行官李万表示,该公司客户包括Netflix Inc.和联邦调查局。“客户可能需要在坦桑尼亚长大的牙医或来自法国的建筑师,”李说,他的团队主要在印度尼西亚工作。数据准确性是他们工作的核心。当ChatGPT两年前推出时,批评者迅速指出了该平台的缺陷和漏洞。自那时以来,大量人类专家被聘用于质量控制。这项工作非常细致。数据标注员如旺莫仔细检查扫描图、照片、视频和文本,以准备AI模型。目标是改进生成式AI系统,这些系统经过大规模数据集的训练,可以分析或创建新内容。完善这些系统消除了AI潜在能力和实际性能之间的差距。
研究公司PMI Cognilytica的董事总经理凯瑟琳·沃尔奇表示,这种专业化在处理军事情报等高风险领域尤为重要。低级版本的此类工作并非新鲜事物。数据服务行业始于约20年前。当时,居住在菲律宾和印度等地的标注员主要标记支持语音助手的语音识别或购物网站搜索引擎的小型数据集。批评者担心AI创造了一个可剥削的底层阶级,指出某些行业中一些人的工资仅为每天几美元。但随着时间的推移,随着AI的进步,许多简单任务已经实现自动化。需求已经转向招聘专家并支付更高的薪水和费率,尽管这些薪酬仍远低于硅谷数据科学家的薪酬包。
在印度,放射科医生培训AI模型的收入可能为几小时工作支付120美元(合100,000卢比),Indika AI的创始人兼首席执行官哈迪克·戴夫表示。他说,普通承包商每月的收入约为这一数字的三分之一。如今,销售标注服务的初创公司吸引了知名投资者。今年夏天,最大的玩家Scale AI从Meta Platforms Inc.和Amazon.com Inc.那里筹集了资金。该公司估值接近140亿美元,已超过Mistral和Cohere等知名AI模型构建商的估值。2023年,红杉资本列出的前50家AI公司中,有四家是标注初创公司,而上一年只有两家。其中一家Labelbox得到了Andreessen Horowitz和Kleiner Perkins的支持。另一家Snorkel AI则得到了Alphabet Inc.的风险投资部门的支持,估值为10亿美元。根据旧金山市场研究公司Grand View Research的数据,2024年数据标注市场的价值接近200亿美元,预计到2030年将以每年约20%的速度增长。
错误的后果也更加严重。一个错误的标签可能会使企业损失数百万美元,引发诉讼甚至导致死亡。癌症扫描AI工具或自动驾驶汽车是两个敏感领域。“不准确的AI可能会失控,”位于洛斯加托斯的Sama首席执行官温迪·冈萨雷斯表示,其客户包括福特汽车公司和沃尔玛公司。“企业承受不起这种情况。”
考虑一下马萨诸塞州总医院与Centaur Labs的合作。这家拥有50,000名自由职业者的数据标注初创公司总部位于美国、哈萨克斯坦和越南等国。近年来,位于波士顿的Centaur Labs改善了医院使用的工具,逐步引入更高技能的数据专家。其中一些涉及日常疾病。(该公司正在开发打鼾检测算法和睡眠呼吸暂停应用。)另一些则涉及更复杂的主题,如开发能够更精确识别CT扫描中肺结节的AI。上个月,该公司宣布从Accel、Y Combinator等公司获得了资金注入。
在哈萨克斯坦负责Centaur Labs承包商团队的放射科医生波莉娜·皮利乌斯表示,工作范围越来越窄。她说,现在仅仅检测肺结节已经不够了。客户越来越希望获得减少假阳性和跟踪结节随时间增长的专门功能。降低风险而不走捷径是最佳选择。“医学数据标注是一个复杂的过程,不能容忍匆忙、无能、粗心或过度削减成本,”皮利乌斯说。
尽管存在诸多风险,AI的支持者认为,训练模型解决高风险领域的复杂问题是优于什么都不做的选择。在许多情况下,只有好处,他们说。位于旧金山的Labelbox与一家客户合作,后者向管理成千上万辆卡车的公司出售仪表盘摄像头分析服务。在过去一年中,Labelbox的数据专家训练AI机器人变得更加擅长监测驾驶员是否疲劳或醉酒。一旦检测到,车队运营商会收到警报并与驾驶员联系。Labelbox首席执行官马努·夏尔马表示,这只是模型不仅仅降低成本或提高效率的一个例子。最好的技术是拯救生命的,他说,数据标注员处于推进AI能力的最前线。“他们正在创造一个世界,在这个世界里,他们的专业知识更加普及,可以应用于造福社会,”他说。
(全文结束)