美国印第安纳大学人类学家玛丽·L.格雷(Mary L. Gray)曾在《幽灵工作》一书中说:“人工智能并不像大多数人希望的或害怕的那样聪明,它对世界的渊博知识必须靠人类补充。”
在过去的十年间,中国的人工智能产业正在以惊人的速度发展。据中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%。大数据和智能技术的发展带来了海量的数据清理、整合、筛选的需求,“人工智能的最后一英里”,需要人类“搭把手”。
于是,这样的人工智能外溢吸引了大量的就业人口涌入,衍生了“数据标注师”一职。这群隐身于数据背后的人,逐渐在媒体报道中被看见。他们被描述成对文本、图像、视频等数据内容进行梳理、标注、标识,以方便投喂算法、促进技术智能的新工种。
数据标注的工作,最先由软件工程师、程序员等自行承担,但是伴随着数据清理需求的增大,他们应接不暇。人工智能技术末端的“数字零工”人群,就此诞生。在我们的调研中,数据标注人群中有一群特殊的女性,她们来自农村县城,有自己的小家庭,不懂技术却乐于学习,不谙智能却变成了人工智能的老师。成为数据标注师,是一个双向选择的结果——既是她们看中了这份职业的自由灵活,也是她们所特有的品质与这份职业相契合。
2023年2月16日,陕西省榆林市清涧县,工作人员在进行数据标注。视觉中国 资料图
一、人工智能领域:县域宝妈入场
我们在调研中发现,县域宝妈成为数据标注师是一种双向选择,一方面,人工智能技术与行业发展的需要带来对数据标注师需求的上升,数据标注师岗位需要劳动力资源的注入;另一方面,在县域生活的宝妈们希望能够通过一些简便、灵活、可以兼顾家庭的劳动贴补家用,宝妈需要这样一份贴近、自由、可创收的工作,因而对数据标注的岗位也很珍惜。
数据标注产业的高速发展和线上工作对产能的促进推动了需求的上升。根据AI训练师认证中心发布,近几年数据标注行业迅速发展,全国已有近200万名从业者。2020年,人社部将数据标注师纳入国家职业分类目录。2021年,数据标注行业市场规模达到43.3亿元,同比增长约19.2%。课题小组走访了北京、陕西清涧、山西永和、贵州铜仁等地的数据标注产业基地,以此窥探县域女性作为数据标注师的职业入场。
同其他的线上零工一样,数据标注师的工作地点和时间相对灵活,这给了县域宝妈更多入场的机会。廖姐来自广东佛山,育有两个孩子,她谈数据标注工作时讲到了母职与工作的结合:“如果到晚上要哄孩子睡觉,我就一边哄着小孩,一边拿电脑工作,很方便。有时候我赶时间工作,也会一边吃饭一边标注,就在饭桌那里解决。我这工作的好处就是在哪里都可以,没有固定的地点。”
迫于疫情下的经济压力,一些宝妈努力接入社会,在传统行业就业机会紧缩的情况下,她们通过抖音短视频、微信公众号、招聘网站、熟人推荐这样的方式连接到全职数据标注这份工作。
起初,县域宝妈对于什么是“AI”并不清楚,却十分明确地知道,自己是“AI的老师”。在陕西省榆林市清涧县的一家数据标记公司招聘中,负责人用贴电线杆小广告等传统方式并没有激起招聘的水花,反而是有一天,一名公司员工说自己做数据标注师月薪过万的新闻在县里传开,一下子迎来了近300位县域宝妈应聘。
二、独有的职业感知
在宝妈们看来,成为一个好的数据标注师,除了最基本的电脑鼠标操作能力,需要两大特质:较好的理解能力,以及细心,这也正是她们的优势所在。
数据标注的工作既复杂也不复杂,考验的是细心与耐心程度。标注师们通常需要识别文本、语音中的特定话语,拉框、勾勒出图片、视频中的特定物品,接着打上标签。比如,在同义词训练中,数据标注师需要理解两段文本的含义,判断这两段语义是不是一样的并标注“是”或者“否”;在人工智能电话催款项目中,数据标注师需要根据业务方的分类要求,分辨出一段语音中的时间、欠款金额、还款日、还款状态、还款意图等信息,一一打上标签,帮助机器学习分辨这些基础信息。这些位于AI技术发展末端的基础性碎片化工作,对于学历和专业素养没有硬性要求,但却十分考验她们在分辨、识别与标注时的理解能力与细心负责。
贺女士今年32岁,从2021年2月开始数据标注工作,电子商务大专毕业的她此前一直做婚纱照拍摄的网络销售,早年辗转陕西省咸阳、西安和榆林等多地,主要负责开辟和接待外地客户,直到2020年疫情全面暴发,拍摄生意做不下去了,她回到家乡陕西清涧,通过朋友介绍开始数据标注工作,“当时我主要考虑到两点,一是工作地点,就在老家当地,二是工作待遇,在县城是很不错的”。贺女士在培训、练习一月后便上岗,主要进行地图标注。
这个工作挺需要你细心和负责的,你做的这个工作是跟每个人都是相关的,每个人都会用到导航,你把这个路标注了,可能是这个路可以走,但是你给到的标注是这个路没有办法走了,封闭了,就可能会让这个人绕到其他路上,让他费了很多时间这种,你一旦做错了,可能用导航的这个人他就走错了。
在M公司,一个数据任务包,包含大约600-1000条标注任务,完成需要8小时,标注准确率需要在95%及以上,经过训练的数据标注师,准确率通常可达97%-98%。这样的高准确率,需要从业者进行长期反复练习。与此同时,县域宝妈们认为,能够在标注工作过程中与同事相互请教、与技术指导上级或是业务方质检人员多次沟通,这在数据标注中也是非常重要的品质。
数据标注师的晋升,一般沿着“标注—质检—审核”这样一条路径展开。已经升级成为质检小助手的郝姐,今年35岁,她从2020年的夏天开始接触数据标注,此前做过商业大楼的管理工作,在金融部门也待过。在郝姐看来,数据标注工作看着神秘与高大上,实际上也与以前的编草、做竹篮等手工物件制作差不多。
你都是上厂子里边去拿原材料,拿了以后我来加工,加工完了我送回去,送回去以后验收合格了你给我钱,在线下我是用手去做,只不过现在升级化了,在线上我是在电脑上领活,在电脑上加工,我提交了,客户验收成功了以后给我钱,其实是一样的。
当我们问及宝妈的职业规划,大多数人想继续做数据标记。在工作岗位吃紧的县城,能有这样一条产业链的后端入驻,并能有一个月三五千的收入,多数宝妈已十分满意。母职的牵绊和相对较高的收入,成为她们的职业认同所在。在成为数据标注师之前,宝妈们大多在家中接一些手工零工,或是在家中依靠丈夫、帮助父母做事,许多宝妈都谈到了成为全职家庭主妇后与社会之间的脱节感,以及由于经济不独立而在家中逐渐缩小的话语权。她们也希望可以获得经济收入,能够自由从容地生活。
三、乡土求生的工作困境
在实际情况中,县域宝妈成为数据标注师,也伴随着一种身份上的脆弱。许多宝妈标注师们虽然取得了一定的收入,在家庭中获得了比以往更高的地位,但家庭责任的优先性仍然在束缚着她们的时间与空间。从职业属性而言,数据标注公司以劳动密集型的模式出现,又以外包业务为主,加上职业门槛低有随时会被替代的风险存在,因此也被外界称为“互联网版富士康”。数据标注师一方面是人工智能的老师,另一方面也被称为“工作的掘墓人”。当终极算法出现之时,大量的数据投喂不再被需要,她们将变得无处可去。
县域宝妈是经历丰富、生动的一群人,此前跌宕的工作经历和成为母亲后孩子与家庭对她们的需要,使得拥有一份工作对于她们而言同时具备经济和社会双重意义属性。县域当地的数据标注基地所提供的这样一份正规雇佣的数字劳动,正是我们去理解她们的核心。这份工作对她们来说,夹杂了经济、道德、心理和社会层面的依恋。
不过,自动化标注平台的研发和某些领域的数据标注工作,在人工智能迭代的发展下也在趋于饱和,末端的数据标注任务也逐渐为机器所替代,在我们的调研中,也有许多县域宝妈提到,从去年开年以来就明显感觉到了任务量的减少。
(作者孙萍为中国社会科学院新闻与传播研究所副研究员,李云帆、杨怡为中国社科院大学研究生,卓不凡为云南师范大学研究生)