海天瑞声贺琳:做人工智能产业的“基石”
原标题:海天瑞声贺琳:
做人工智能产业的“基石”
数据已经成为一种生产要素,前提是要把人类世界的信息转化为计算机可以识别的方式。”贺琳介绍说,人工智能行业发展涵盖了三大核心要素——算法、算力及数据。如果把发展成熟的人工智能行业比作菜肴,那么数据就是食料,算法是煎、炒、烹、炸、炖等各种烹饪方法,算力则是燃气灶、菜刀、锅、勺等烹饪工具。要想做出一道色香味俱全的菜肴,三者缺一不可。
“帮助客户不在数据准备阶段走弯路,助推其加速模型训练、产品落地和迭代更新是海天瑞声坚守的初衷。”
◎记者 张雪 ○编辑 全泽源
当不方便听语音时,点下“转文字”便能直接获得语音信息的文字翻译;当开车时,对着手机直接说出目的地便能直接获取导航路线;当进入写字楼时,对着智能安检摄像头刷脸即可通过……
随着技术的不断迭代,人类已悄然迈入智能时代,机器能够像人一样,会听、会看、会说、会动、会思考及会学习,更让人类生活变得丰富多彩起来。智能时代,人们通过智能语音系统、计算机视觉系统、自然语言处理系统发送简讯、操纵汽车、遥控设备,这一切主要归功于智能语音、计算机视觉、自然语言等相关人工智能领域的应用发展。
“而我们所做的事情,则是作为人工智能产业的‘基石’,为产业链的技术层和应用层源源不断地提供对其至关重要的AI训练数据,用户看不到我们,却在时时刻刻体验着我们的基石作用。”海天瑞声董事长贺琳说。据悉,该公司产品和服务已获得腾讯、阿里、百度、字节跳动、微软、三星、亚马逊、科大讯飞、商汤科技、海康威视等国内外优质客户的认可。
8月13日,海天瑞声登陆科创板,公司将借助资本的力量强化双翼,飞向更广阔的智能天地。
训练数据“大王”
海天瑞声成立于2005年,是一家专注于为AI算法模型训练提供数据产品及解决方案的服务商。16年来,公司持续投入重金做研发,目前主营业务包括训练数据定制服务、训练数据产品及训练数据相关的应用服务三大板块,业务领域涵盖了智能语音、计算机视觉、自然语音等AI核心领域,构筑起坚实的技术壁垒,持续为客户提供高质量的训练数据产品及服务,始终努力推动着AI技术在全球各行业落地的进程。
随着智能客服、智能家居、智能手机助手等应用产品的广泛普及,琳琅满目的人工智能应用热潮背后,是迅猛发展的人工智能技术。而在技术背后,扮演至关重要角色的则是大规模的专业训练数据集。数据资源的规模和质量,在很大程度上决定了各种人工智能技术及应用的广度和深度,从而影响着AI应用/产品的落地及用户的体验。
“数据已经成为一种生产要素,前提是要把人类世界的信息转化为计算机可以识别的方式。”贺琳介绍说,人工智能行业发展涵盖了三大核心要素——算法、算力及数据。如果把发展成熟的人工智能行业比作菜肴,那么数据就是食料,算法是煎、炒、烹、炸、炖等各种烹饪方法,算力则是燃气灶、菜刀、锅、勺等烹饪工具。要想做出一道色香味俱全的菜肴,三者缺一不可。
贺琳所带领的海天瑞声正是我国领先的人工智能训练数据专业提供商。公司自成立以来,始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。
根据招股书显示,目前海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
智能语音称雄天下
据介绍,海天瑞声在智能语音方面可谓独步天下。公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至目前,公司的产品/服务已覆盖全球160余个语种/方言,并已积累下超过100个语种/方言的发音词典,累计词条数超过1000万条,可构建高质量的智能语音训练数据集群。
“我们的许多客户都是全球性的大型科技公司和头部人工智能企业,他们的产品需要推广到世界各个角落,所以产品中的语种/语言功能也需要能够匹配其所布局的地方区域。”贺琳介绍说,每一种语言的研究、开发都需要花费大量的时间及成本,不同语言涉及的音素集、发音规则等设定,都需要专业的语言学家联合AI工程师一起来共同研究完成。
除了丰富的语言能力,公司依托自主开发的一体化数据处理平台,高质、高效地采集与处理大规模训练数据。一体化数据处理平台需要解决三方面的问题:一是如何构建底层算法结构,使人机结合处理数据的能力发挥到最优,最大程度提高数据处理效率;二是如何通过对平台和工具的反复打磨,使数据生产流转效率最大化,令训练数据的开发可以真正达到规模化;三是如何最大程度保障数据安全。海天瑞声通过多年的深耕和持续的研发投入,拥有了功能强大的一体化处理平台,实现了训练数据安全、合规生产的规模化。
上述罗列的“特技”,正是海天瑞声区别于业内其他数据服务商的本质特征,也是在经年累月的努力下为自己打造的深厚壁垒。公司也成为目前国内极少数有能力提供包括希伯来语、乌尔都语、缅甸语等语种数据服务的供应商,也是全球拥有自主知识产权训练数据集最多的企业之一。
据贺琳介绍,公司目前在以每年大概十余种语言/方言的速度不断扩充着公司的专业数据库,同时不断迭代一体化数据处理平台,加入各类新的处理功能。多年积累的核心技术和专业服务能力,使得公司能够更大规模、更有效率、更加精准地生产训练数据,在提升自身产出效率的同时也有效提高了训练数据对于客户算法模型的改善、优化效果。
数据是算法发展和演进的“燃料”
贺琳早年在中科院声学研究所工作,彼时,她与身边众多研究人工智能的好友们都遭遇一个烦恼:基础训练数据的缺乏。没有训练数据作为支撑,AI技术及其应用的研发工作就很难开展。当时的他们会时常聚在一起来讨论这个问题该怎么去解决。随着算力的突破,数据的紧缺问题更加迫在眉睫。
“当时我认为这是未来的一个方向,因为大家在工作中都会遇到这样的瓶颈。一些企业的研究员更想专注于做算法,但又缺乏数据。”贺琳表示,所以海天瑞声应运而生。
贺琳告诉记者:“数据是算法发展和演进的‘燃料’,算法、算力、数据这三个要素一定要互相作用,才能使AI行业得以发展。近年来,国家从顶层设计层面也非常重视数据的发展,并制定了很多相关的政策,特别是今年,建设人工智能行业训练数据集、发展全数据产业链已被正式纳入国家重点规划,可以说数据资源的基础性和战略性的地位已经凸显。”
事实上,除了提供训练数据产品外,一个专业高效的数据合作伙伴最重要的能力之一是帮助应用商们较为准确地预估投入产出比,找到与整体业务目标契合的整体服务解决方案。经过多年的业务实践与发展,海天瑞声目前与产业链上的各类机构都建立了长期的战略合作关系,产品和服务已获得阿里巴巴、腾讯、百度、字节跳动、微软、三星、亚马逊、科大讯飞、商汤科技、云知声、海康威视等国内外优质客户的认可,建立了广泛的行业知名度与影响力。
未来,市场对训练数据的拓展性需求和前瞻性需求均将快速增长。随着行业内对训练数据需求类型的增加以及对服务标准要求的提高,这就要求包括海天瑞声在内的数据服务商能够保持对行业发展趋势的洞察能力,深刻理解客户的应用领域及业务场景,在设计方案过程中考虑到算法对样本多样性的需求,保证数据方案能满足机器学习的需求且避免出现与模型的过拟合、欠拟合等诸多问题。
“帮助客户不在数据准备阶段走弯路,助推其加速模型训练、产品落地和迭代更新是海天瑞声坚守的初衷。”贺琳说,随着人工智能在全球的快速发展,对数据资源需求将持续增长。与此同时,不同类型、处于不同发展阶段的企业及组织对数据的需求也逐步展现出差异化、多元化趋势,因此对人工智能训练数据服务商的资质、研发、产能、质控、安全合规等方面都提出了更高的要求。
责任编辑:王蒙
三星家族豪门恩仇记: 一代奠基业 二代争权势 三代而终?
宫斗丑闻、自相残杀!三星家族豪门恩仇记:一代奠基业,二代争权势,三代而终?死亡、税收和三星,是韩国人一生无法避免的三件事。他们的衣食住行、生老病死都和三星集团有关,三星的总产值占到韩国GDP的20%以上,由此可以想象被三星支配的恐惧。00002021年考研:多所高校报名人数增幅超10% 线上教育机构收入大增
作者:陈洁,实习生招海莹2021年考研的时间点正在一步一步逼近,目前仅余下不足20天。那么,今年考研的形势总体如何?尽管考研的总体报名数据并未正式公布,但是从各个学校公布的数据来看,或许今年将是近几年竞争最为白热化的一年。0001优客工场三季度营收2.53亿元 轻资产收入同比增长近276%
新京报讯(记者张晓兰)11月26日,优客工场发布2021年第三季度财报。财报显示,今年第三季度,优客工场实现总营业收入2.53亿元,同比增长26.8%;净收入增长了26.8%,达到2.5亿元;调整后的净亏损同比收窄49.5%,达6043万元。00014家上市公司高管被高中学历骗子诈骗134万 到底是傻还是虚?
相关新闻:男子寄200封信敲诈多名A股公司高管上百万被判十年半来源:野马财经资本市场部高中男如何骗过高学历上市公司高管?31岁的湖南高中学历男子符丹青给出了自己的答案。去年4月,符丹青写了200封勒索信,广撒网式寄给上市公司高管们,最终成果“喜人”,成功“捕获”了4位高管,先后收到共计134万元的诈骗款。0000雪糕标价66元还说消费者“爱要不要” 钟薛高回应:系恶意剪辑
近日,在《艾问人物》节目中,钟薛高创始人林盛表示:“钟薛高的毛利和传统冷饮企业毛利相比,其实略高。最贵的一支卖过66元,产品成本差不多40块钱,它就那个价格,你爱要不要。我就算拿成本价卖,甚至倒贴一半价格卖,还是会有人说太贵。造雪糕也是需要机器、水电煤、原材料和人工成本的,成本一定是不断涨价的。”6月16日,面对公司上热搜一事,钟薛高方面回应新京报贝壳财经记者称:“我们被恶意剪辑了”。0001