最新的《AI新基建发展白皮书》,让AI数据发展有新思路
AI 数据是推动人工智能落地发展的核心基础,是人工智能技术应用和发展的基石。人工智能的大规模应用需要利用海量数据对模型进行训练,可以说,没有高质量的数据就没有人工智能的大规模应用。可以说,AI 数据基础设施已经成为AI 新基建的重要支撑。
国家工业信息安全发展研究中心最新发布的《2020年AI新基建发展白皮书》中指出,人工智能算法的演进升级需要高质量数据作为支撑。经过清洗标注、去掉噪声数据的高质量数据集比未经过处理的数据集更适合人工智能算法进行训练。质量不断提升的数据集已经成为人工智能技术发展的重要推动力,高质量AI数据正驱动人工智能算法更加智能化。
回顾过去,早期的数据标注行业曾长期处于粗放的发展模式,数据粗制、混乱、复用的情况屡见不鲜;但随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,行业属性较强的垂直领域加速落地,数据标注的需求正逐渐转向个性化、场景化和准确化,数据服务供应商的技术实力、精细化管理能力、流程把控能力不断提升,数据标注行业走向专业化、精细化、定制化。
这也意味着必须有能力超群的代表站出来,重新定义数据标注行业的规则。
目前,数据标注行业的企业机构主要分为三类:第一类是AI公司内部的标注部门,第二类是数据标注众包平台,第三类是以场景化、高精度数据采集和标注见长的公司。
第一种形式顾名思义,科技企业自身有数据采集标注需求,大量数据标注任务由公司内部完成。
第二种是众包平台,以亚马逊众包平台Mechanical Turk为代表,基本按照“需求公司——众包平台——多个互联网用户”的模式完成。
第三种是以云测数据为代表的,专门从事高精度、场景化数据采集和标注的第三方企业。
与其他数据标注公司不同的是,云测数据更强调高精准度的场景化的数据服务。其CTO陈冠诚认为,“通过云测数据的服务,企业可以将自己算法的识别精度推到一个新的高度,进而落地成为产品被用户使用,而沉淀的用户数据以及用户在分享过程中逐渐产生的更多互联网数据,则会让整个数据库演变成大数据生态。”
实际上,这所体现的正是对数据质量的把控能力和对场景深度的还原能力。
以云测数据为例,为进一步满足场景化数据的需求,首创了“数据场景实验室”进行相应的场景化数据生产,以满足AI行业应用场景逐渐趋于长尾和碎片化的趋势;并从帮助客户梳理数据需求出发,通过自建数据标注基地和自研的数据标注平台进行数据的全流程把控,在保证数据的质量、效率和隐私安全的前提下,来帮助AI企业或部门快速构建核心数据壁垒,加速AI产业化落地的进程。
舍恩伯格在他的《大数据时代》中预言:“数据可以量化一切,文字变成了数据,方位变成了数据,沟通变成了数据,直到万物的数据化。
当下,数据价值驱动的数字经济正成为推动社会前进的主要模式,由各种AI等创新技术驱动的数字化转型成为了新基建的核心。“新基建”的东风促使我国人工智能、5G、工业互联网等行业迎来大规模提速发展机遇期,AI数据作为新的生产要素声名渐显,以云测数据为代表的深耕数据采集、数据标注的人工智能数据服务商将进一步助力AI产业生态的完善。