揭秘人工智能训练师:用数据“喂养”机器人5年,AI长大了,我却遇到天花板
原标题:揭秘人工智能训练师:用数据“喂养”机器人5年,AI长大了,我却遇到天花板
来源:时代周报
5年前,巫伟成怎么也没有想到自己的工作会和人工智能扯上关系。
巫伟成本科就读计算机专业,毕业后在一家外包呼叫服务商做客服组长,后来偶然间接触到一款智能客服产品。在此之前,公司只有人工客服业务。
从未接触过人工智能的巫伟成惊讶于客服机器人的效率,“当时我看了一组数据,说客服机器人能取代多少人工客服,就觉得它一定是未来。”
抱着这样的想法,巫伟成到了一家电商公司做高级知识库管理员,工作内容相当于AI训练师。
巫伟成提到的智能客服产品是阿里2017年发布的“店小蜜”,一款专门针对商家研发的人工智能客服机器人,能7*24小时在线,全年无休,缓解了618、双11咨询高峰期人工客服不够用的问题。
伴随店小蜜出现的还有第一批AI训练师群体。2020年3月,AI训练师被人力资源和社会保障部正式纳入新职业。这个职业中的大多数人来自客服组长、客户运营等岗位,此前从未接触过人工智能,现在却是支撑人工智能应用必不可少的一批群体,是人工智能背后的人工。
虽然AI训练师直接面对的是新兴的人工智能技术,但从很多方面看,这都是一份较为机械和枯燥的工作。训练师们从上班开始面对的只有一个东西——数据,他们要用大量的数据喂养白纸一样的机器人,直到他们能听懂并回答客户的问题。
巫伟成目前在一家智能客服供应商乐言科技做AI训练师,负责训练智能客服机器人,他们的工作包括收集不同行业的客户需求、提供数据标注原则、设计机器人对话逻辑等。
“这项工作很考验耐心,我们需要把非常大量的数据进行整合,慢慢地把数据量减下来,还要把数据量转化成有效的东西,这是一个很枯燥的过程。”
比如做3C产品的客服机器人,巫伟成需要先找行业内较大的店铺前线客服和销售人员沟通,收集店铺和客户日常的沟通数据和客户较为关心的问题,将问题标准化,并提取出行业特征。
在实际问答过程中,顾客的提问方式千奇百怪。在某智能语音交互公司担任AI训练师的陈哲如对时代财经介绍,比如“忘记密码”这一件事,客户可能会问“我密码丢了”“不知道我密码是什么”等等,这就需要训练师们将典型问题标准化,然后编写一些相似问题进行模型训练。
收集完数据后,训练师需要将数据灌入系统中,分解、聚类,再进行数据标注。数据标注是教人工智能认识某个句子的过程,标注内容包括意图、做分词等。
比如,“我买的手机壳尺寸不对”这句话,数据标注师们会将之标注到“退换货”这个意图中,如果某个句子没有明确的意图,便会根据相关的业务知识和使用场景进行标注。
很多公司会聘请专门的数据标注人员或者外包团队负责数据标注,但在数据量不大或者涉及到较专业的行业知识(如医学)的情况下,AI训练师也会做数据标注的工作。
数据标注完成后是对话流设计,当顾客问出一个问题时,机器人需要准确识别其场景或意图,然后从知识库中搜索合适的回答或推送相关商品服务。如果说数据标注是让机器人学习知识,那么对话流设计就是让机器人学会运用知识。
要让机器人准确识别出某个意图,背后需要有强大的模型和足够的数据量,巫伟成介绍,一个意图里面需要50-100个句子。
对话流设计成功后是日常修复bug的工作。智能机器人只是AI训练师们用一堆数据堆起来的智能,没有任何自己思考的能力,当客户问到数据库里未收录的问题、问话时采用过多的修辞、方言口音过重时,机器人都没办法回答,这就需要AI训练师手动找到问题调整。
“很多人对AI不太了解,他们觉得AI是可以达到一个成人智力水平的,但实际上它还处在比较初级的阶段。顾客会觉得一个这么简单的问题,机器人为什么回答不上来,实际上如果模型不行或者初始语料不够,以及考虑到算法在实际应用过程中的限制,机器人就是不会回答。”会计出身、大学刚毕业就做了AI训练师的陈哲如说。
在整个工作过程中,训练师们不需要掌握专业的算法知识,只需了解模型的基础工作原理,如果模型有问题可以与专业的算法团队对接。
陈哲如所在公司有内部的算法知识分享会,他表示自己有一个“老大”,依靠自学转型成为算法工程师,但“那是比较牛的人,大多数人只掌握一些基础知识。有一些小公司不是通过模型,而是直接通过关键词设置对话流,这就完全不需要算法。”
在提供客服机器人产品的平台方做AI训练师,一个难点在于需要持续接触不同行业的知识,因为AI落地应用一定会结合到某个垂直领域。比如陈哲如最近在做国家电网的项目,对电网知识完全不懂的他需要持续学习相关知识,否则便无法弄懂用户的真实意图。
当客服机器人由平台方制作好,交到客户手中,需要商家端的AI训练师针对具体业务再做优化。
“刚引进来的智能客服只能回答行业通用问题,完全无法用到实际业务中,宛如一个人工智障。比如发什么快递、店铺售后流程、开发票退差价等零碎问题,都需要我们继续优化。”赵云峰说,“有时候甚至会出现一些离谱的错误,比如客户问‘什么时候发货’,它会识别成‘什么东西好吃’”。
赵云峰本科毕业于交通工程专业,此前在阿迪达斯电商服务部做数据分析,因一个偶然机会接触到智能客服,2020年前后转行到生鲜零售电商杭州大希地公司做AI训练师。
AI训练师赵云峰刚来时,公司还没有AI训练部门,只是因为赵云峰的数据分析工作看起来和AI训练师有联系,便被拉过去负责这项业务,没有任何经验的他从0到1摸索着搭建起了该部门。
刚开始,赵云峰整天泡在客服人员旁边,看他们怎么回复客户问题,在哪些节点推荐商品,哪些节点发送关怀语,然后将这些数据模型化,配置话术放到机器人知识库中。
2017年时,AI训练师还是一个刚刚兴起的职业,没有同行可以参考,赵云峰一开始走了不少弯路。比如,电商店铺经常凌晨举办活动,需要机器人回答一些有时效性的问题,但他们不知道怎么预设回答,只能半夜两三点爬起来更新话术。
经过4年多发展,公司的AI训练部门已经走入正轨。与平台端的AI训练师一样,商家端的AI训练师也是每天和数据打交道,主要工作就是对话流抽检,找出错误的对话,解决问题或将问题反馈给供应商。
遇到最多的问题,还是机器无法理解人的语言导致的对话流紊乱,背后原因是客户提问方式有太大的不确定性。
赵云峰介绍,人在线上说话经常会分段说。比如客户在问发货问题时可能会先说“今天上海来台风了”,机器人的底层逻辑决定,必须要对客户发出去的每一句话回应,当客户的话没有实际的指向时,机器人可能会默认到错误的话术场景。
当客户说话有太多语气词或者形容词时,如“我想要一件适合现在穿且防水的衣服”,机器人都会推荐错误,这时候一些没有耐心的客户可能就直接不买了。
碰见无法被识别的对话时,训练师需要在系统里添加新的问答和相似问题,最多一天需要处理10个对话流紊乱的问题,大约花费2小时的时间。赵云峰表示,处理对话问题时,最大的难点实际上在于公司内部沟通不顺畅,训练师往往没办法及时更新商品信息。
与平台端AI训练师不同的是,商家端AI训练师更需要关注智能客服是否给品牌带来了业绩提升,并在此基础上,优化智能客服和提升品牌的服务能力。
比如品牌端的智能客服要对客户追单,训练师需要跟踪追单效果,若效果不好则要更新智能客服的追单话术,或者辅之以图片、视频。这些都要求训练师本身有营销相关的知识。
此外,商家端训练师在训练机器人时还要考虑品牌调性和人文关怀。比如杭州大希地公司的主要客户是白领和精致妈妈,客服机器人就需要用“家庭风”的语言回复,比如“这款食品特别适合宝宝食用”。
团队能够正常运营后,赵云峰没有再继续做AI训练师,而是开始在探索电商行业的数智化运营方式,例如数智化营销、智能客服、虚拟主播等。
巫伟成也转任了产品定义主管。在平台端,从AI训练师到产品经理是最为普遍的职业晋升道路。
AI训练师并不需要特定的专业知识,所以作为一份新职业,并没有专业的人才输送路径,人才来源也较为多元。
会计专业出身的陈哲如表示,自己刚来公司时,身边同事“学什么的都有”。不过,这几年岗位也在慢慢“内卷”,最近一段时间他发现新来的同事都有一定专业背景,包括一些善于处理文字语句的汉语言文学专业,以及计算机背景的毕业生和有相关行业知识的人才。
赵云峰则坦言,从团队搭建到现在的5年间,公司AI训练师人员和工作内容都没有太大变化。其团队人员大多来自于客服岗位,“客服培训一个月就完全有能力上岗,能做一些比较标准化的日常运行工作。所以这个行业并不缺人,但缺高质量人才。”
他表示,客服做AI训练师基本都有思维定式,很难跳出原本工作框架。所谓高质量人才是指,不止能做日常的运营,还能追踪前沿技术,把技术和业务相结合,且能想到哪些新产品能对提升公司业绩有帮助。
赵云峰所在的公司已经从不关心这个职业到逐渐重视AI训练师群体,但AI训练师在公司并不是价值较高的人才。“目前AI训练师还只是围绕智能客服这个产品去做运维,没有涉及到更深层的一些东西。”
另外,虽然AI训练师有统一的职业名称,但工作内容却不同。陈哲如去年因自身特殊原因换了三四份工作,他发现,不同公司实际工作内容会有很大区别。
“一些AI技术不太成熟的公司,训练师更多会做一些数据标注或者话术设计的工作。在AI技术较为成熟的公司里,训练师则会参与产品设计和算法调优的工作,这时候虽然同样被叫做AI训练师,工作内容已经相当于AI产品助理。”
作为一份新职业,AI训练师或许还要一段时间朝更正规的方向发展,“训练师只是在抓一个产品,始终会有局限性,会有一个天花板在那。”赵云峰感叹。
责任编辑:邓健
红黄蓝男教师的朋友圈暴露了一个可怕倾向
来源:瞭望东方周刊文|顾佳贇{image=1}4月12日,江西瑞金市红黄蓝幼儿园一名男教师在朋友圈发布三张男童抱着自己脚闻的照片,并配文称“从小培养m”。随后,微信公号“瑞金市红黄蓝教育机构”回应,该教师为“助教”刘某,“尚未发现强迫、虐童或猥亵行为”,“园所已将其辞退”。0001他拉马化腾抽一根烟改写了腾讯历史 现日薪百万是Pony马八倍
他拉马化腾抽一根烟,改写了腾讯历史!现日薪百万,是Pony马八倍腾讯2020年的财报,飘满了“有钱”的味道。3月底,腾讯发布了2020年第四季度及全年的财报。财报显示,2020年腾讯总收入为人民币4,820.64亿元,较二零一九年度增长28%;Q4腾讯营收1336.67亿同比增长26%,净利润332.07亿同比增长30%……{image=1}0001复盘2020中国豪华车市:奔驰超宝马成销冠 奥迪“以价换量”
2020年中国豪华汽车市场“产销两旺”的趋势,在2021年开年还在继续。“试驾车暂时不在,周末来试驾的比较多,工作日会稍好一些,如果有试驾需求,可以提前打电话预约。”1月24日,周日下午,北京一家林肯中心里,销售人员对前来看车的消费者耐心解释。0000拼多多的隐秘角落:千亿美金市值只有5件专利
来源:锦缎研究院文|杰迪黄峥曾说:把今日头条下的信息流换成商品流,就是拼多多(NASDAQ:PDD)。这句话表面看没毛病,但将二者两相对比,拼多多在技术上还差得远。如果这个弱项不补充上,“它们建帝国我们错位竞争”最后只会沦为一句空话。技术孱弱,会影响到拼多多机器推荐商品的逻辑,C2M(用户直连制造)的逻辑,以及线上替代线下社会零售份额的逻辑,进一步影响估值的逻辑。0000利星行中心出现疑似病例 旁边的猿辅导回应:不涉及猿辅导相关员工
记者|查沁君12月25日,据微信群名为“HP北京办公室电子通行证”的群友消息称,“猿辅导发现疑似病例,全楼要核酸检测。”界面教育向猿辅导求证,对方回复:“目前已收到街道通知,不涉及猿辅导相关员工,具体情况请以防疫部门官方通告为准。”0000