Skip to main content

· One min read

伴随着人工智能的发展壮大,不少曾经只出现在电影中的画面渐渐照进了现实,在改变了人们生活的同时,也引起了不少的担忧,其中争议点最大的问题便是人工智能会不会取代人类,导致失业潮的来临?其实这样的担心大可不必。近日,百度创始人李彦宏先生在做客某档节目是便谈到了人工智能对就业产生的影响。AI时代,就业方向在哪?或许数据标注能够给出答案。

     人工智能会取代人工么?答案显然是否定的。李彦宏谈到,在每次技术性革命发生时,总会使得原有的基础工种被大量替代,这是必然的。但是技术革命在减少上一代工作岗位的同时,会产生大量新的工作机会,例如在互联网革命时,第一、二产业的从业者大量减少,而第三产业和新兴产业的从业者则大幅增加,技术革命的本质不是削减,而是让人去做更有价值的事情。

  在谈到人工智能所带来的新机会是,李彦宏着重提到了数据标注。数据标注师是基于人工智能兴起的一种新兴职业,主要工作内容是通过对各种数据进行人工标注处理,使其成为能够被AI识别、学习的内容。人工智能的本质还是人工,未来,随着行业的不断发展,数据标注师将成为产业中需求量最大的岗位。

  在发展数据标注这一新行业方面,我们已经看到了成效。2020年,在相关部门发布的25个新职业名单中,人工智能数据标注标注赫然在列,多所高校也相继开展了关于人工智能基础数据服务的专业。李彦宏和他的百度也在这方面做出了巨大的努力,其中包括共建数据标注基地,培养大量的数据标注人才。目前,全国数据标注行业从业人员已经超过了500万,龙头企业也纷纷兴起,相信未来,数据标注将成为新的热门行业。

     行业的发展离不开人才的培养。我们已经看到目前,行业人才的培训体系和人才规范正在日趋完善。在这方面,AI优评走在了前面。通过与权威机构的合作,AI优评建立起了一整套完善的数据标注人才考评体系,为数据标注行业人才建立了考核标准,并为通过考评取得证书的人才直接提供就业机会,推荐就业。相信在共同的努力之下,未来的人工智能行业必将取得重大的发展突破。

· One min read

人工智能的产生是人类社会发展的趋势,所产生的必然产物。从第1次工业革命开始,人类为提高效率发明了蒸汽机。蒸汽机的加入是人类的生产效率,得到了初步的提高。蒸汽机解决了人类生理疲劳的和工作耐力的问题。从而达到生产效率的提高。第2次工业革命。内燃机的发明和电力的使用,使生产效率呈几何倍增长。重新定义并改变了生产模式及方法。第3次科技革命,原子能空间技术,计算机网络,既是第一二次科技革命的延续。就是向第4次科技革命的过渡。起着承上启下的作用。在某种程度上来说。它在人类社会发展的立场上,所起的作用及意义是无比重大的。他彻底地解决了第一二次科技革命留下的遗留问题。并为第4次科技革命的到来指明了方向和目标。第4次科技革命,是全面的全方位的多领域多层次的巨大技术性变革。相信当第4次科技革命结束。人类历史的发展再向前迈出巨大的一步。将成为人类探索更高维度世界的基石与踏板。

在第4次科技革命中,人工智能即AI技术,这是第4次科技革命的中流砥柱。其实人工智能早就进入了我们的生活,当年中国棋手柯洁和阿尔法狗的围棋大战,击败柯洁的就是人工智能。

经过人工智能研究机构 Open aI.做过一个 捉迷藏的实验。研究发现,通过简单的规则这些AI。会变得越来越智能,也许在更大更加复杂的环境里会有真正有着自主思想的人工智能诞生。

。马斯克曾说我们需要万分警惕人工智能。他们比核武器更加危险。是想当人工智能发展到一定地步,拥有自己的意识时。我们人类还有支配他们吗?我们可以大胆的假设,我们人类有自己的自我意识,当在没有任何规则与条件的情况下。你是否愿意听从他人的支配。我们之所以能够听从其他人的安排,这一切都是具有先决条件的。只有在某些特定的环境条件中,我们才愿意听从他人的指令。同理,如果任由人工智能自由发展,并不制定相应的规则,没有规则的约束,他将很可能脱离人类的控制,对我们造成威胁,所以人工智能的发展,离不开相应规则的制定,人类社会制定法律来约束人们,人工智能也相应制定专属于人工智能的法律,如机器人三大定律等,来约束他们,从而更好地服务人类

人类有些时候是奇怪的,可能我们自己也搞不懂。一方面我们希望人工智能发展得越来越好,希望它能像人类一样分析决策,行动帮助我们更好的解决问题,代替我们去做那些复杂,且效率低下的问题,另一方面我们又害怕他们过于智能,脱离我们的控制,对我们造成伤害。

近日美国国防部高级研究计划局,举办了一场阿尔法狗斗实验,在虚拟空间中,人工智能无人机与5:0的压倒性优势,击败了飞行员驾驶的模拟战斗机,在实验当中并没有使用先进的武器,双方的,战斗机性能基本一致。或许当6代机问世之时,你将会发现驾驶他的,将是人工智能。

人工智能,是未来发展的必然趋势,是不可抵挡的,无论你接受与否,他都将到来,既然他是必然,那我们何必纠结于,他未来有可能会伤害我们,因此而拒绝他的到来我们应该做好如何接待他,如何制定完善的规则来约束它,控制它,让他更好地为我们服务,更好地实现它的价值。让我们大家一起,来迎接,新时代的到来。

· One min read

“我觉得标注行业一直在承受误解,特别是在被贴上人工智能界‘富士康’的标签之后。”

“外界会觉得:AI这么高大上,背后却是一群打标签的人。(他们)想刻意制造反差,就直接(把标注)定义成劳动密集型行业。”见到钛媒体编辑时,倍赛数据CEO杜霖忍不住吐槽道,“我不想让人再去看小作坊,想让人看看业内还有我们这种技术公司。”

2015年前后,AlphaGo横空出世,掀起了国内AI创业的浪潮。

五年间,人工智能行业在聚光灯下飞奔,跑出实验室、实现”AI+产业“落地,并成为新基建的重要组成。AI行业也经历了资本的冰与火,逐渐走向理性。

但作为AI产业链的最上游,数据标注行业却一直游离在聚光灯外,很少被人提起。

即便外界有观感,也大多想象这个行业绝大多数公司会是“富士康”一样的流水线,亦或是三四线城市的小作坊。

就连刘慈欣都会说:现在的人工智能,前面有多少智能后面就有多少人工。数据标注行业,更多被用来调侃人们对AI的期望与差距。

但实际上,这个行业已经走过了小作坊的粗放时期,开始走进“技术致胜”的时代。

误解一:数据标注只靠人力

2017年,《经济学人》发表的封面文章中提出了一个疑问:数据更像石油还是阳光?

文章作者认为,数据是“世界上最宝贵的资源”,数据是未来的石油。但另一方面,数据也具有公共物品的特征,人们应该对其进行广泛的收集和利用,以最大程度地创造财富。在这个意义上,数据就如阳光一般。

图片

如同石油和阳光,数据不经过炼化、转换没法应用,而最初采集数据、处理数据的人,就是数据标注师们。

作为AI应用大国,国内的数据标注公司,与AI创业潮近乎是同时起步。刚起步时,国内AI大多处于实验室研发阶段,所需数据量小,也并无定制化需求,因此行业门槛较低,大多以劳动密集型的作坊出现,这些“小作坊”以外包(BPO)业务为主,也给外界留下了“富士康”的印象。

而现在随着AI大规模落地,向产业更深更广延伸,使得标注场景更细分、数据类型更复杂,行业开始跨过野蛮生长,进入精耕细作。整个AI基础数据服务产业正在经历转型升级——更多劳动密集型企业正面临生死关头,更多的技术型公司正在突出重围。

艾瑞咨询今年发布的报告显示,2019年中国AI基础数据服务行业市场规模可达30.9亿元,预计2025年市场规模将突破100亿元,年化增长率达到21.8%。

报告指出,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化,越来越多中小型供应商在苦恼生存问题,这一群体在未来1-2年内将迎来“倒闭潮”。

杜霖所在的倍赛数据(BasicFinder,以下简称倍赛)就是家典型的标注技术公司。

这家公司定位是AI的基础设施供应商,构建从数据标注、数据管理到建模的一系列底层基础设施。

杜霖团队的核心成员都是机器学习和AI从业者,但2015年国内AI创业热时,他们却选择了AI产业链的最上游——数据标注。

“我们一直坚信一句话叫code is cheap(代码是最便宜的)。随着Google TensorFlow、Pytorch等开源框架的推出,AI公司建模的门槛会越来越低,从前海外名校博士的工作现在本科学生都可以做。”杜霖对钛媒体App表示

“如果我们做AI技术公司,就要在模型甚至更底层的神经网络研究中发力。而我们看到的更大的蓝海其实是数据,未来算法门槛越来越低,而数据则会越来越高。“

杜霖表示,大量数据标注企业都强调解决就业,而非技术属性,这也是行业被视为劳动密集型的原因之一,但这并不代表这个赛道里不需要技术。

“京东的主要人员构成是快递小哥对不对,但京东是劳动密集型企业吗?本质上它还是技术驱动的。”

当前,随着AI建模能力外溢,技术门槛降低,不仅科技公司、各行各业对数据的需求都在增长。科技公司想通过巨大的数据池构建模型壁垒,也有更多企业开始重视自有业务数据的标注及模型迭代,对标注系统的私有化部署或工具SaaS需求开始增长。

一位不愿具名的AI从业者对钛媒体App表示,国内一些头部AI公司宣称建立了模型壁垒,但本质上是由于积累了绝大部分数据而形成的数据壁垒,其实各家的模型并没有代际上的差异。

杜霖也强调了数据量对建模效率的影响。“请一群厉害的博士去攻克一个场景,或许仅能提升不到5%的效率,但如果能在数据端多20%的数据,效果会比从底层算法研发提升更多。”

在他看来,标注企业的核心竞争力还是技术。“这个行业经历了大洗牌,劳动密集、压榨工资的企业被淘汰,最后变成技术主导。技术提升效率、产生了成本优势,通过理解客户需求、再加上自有技术和平台,标注企业就能形成自己的壁垒。”

误解二:数据标注不被资本重视?

但“劳动密集型”这一刻板印象,依然存在于数据标注这个产业中。体现在投融资上尤为明显。

杜霖认为,国外比较认可标注公司的技术价值,北美数据标注公司与国内相关公司的估值至少相差10倍。“国外做标注工具软件的企业已经在投融资中火起来了,我们也就是千万级人民币,他们融资规模普遍比我们大,基本都是几千万美金起步。”

据钛媒体App不完全统计,海外技术驱动型公司已经受到关注。其中,黑马企业Scale AI在C轮融资1亿美元后,投后估值已超10亿美元,跻身独角兽行列。不少标注公司被企业收购,比如老牌标注公司Figure Eight也3亿美金被Appen收购,初创的Mighty AI被Uber全资收购。今年3到4月,海外的DefineCrowd、LabelBox纷纷完成数千万美元融资。

而国内标注公司中,爱数智慧在A轮融资后的估值约为2亿元人民币,这在同类公司中已经属于融资表现较好的了,国内同类公司融资额基本在千万级人民币左右。

图片 钛媒体整理了部分数据标注公司投融资情况,数据来自天眼查以及公开资料

五岳资本(N5Capital)董事总经理蒲俊臣对钛媒体App表示,与北美同类型公司产生估值差,是因为国内大部分投资者将标注技术公司等同于标注业务公司,加之部分媒体对行业劳动密集属性的刻画,使得提升行业效率的技术价值没有被公允认可。不过,随着投资者对行业认识深入,这种差距会逐渐减少。

对于国内标注公司是否有投资价值,投资方也有不同看法。

在蒲俊臣看来,标注技术型公司仍有投资价值。

“一方面,AI公司在算力、算法方向投入的增量梯度逐渐下降,未来市场存在巨大的数据需求;另一方面,这类公司的智能标注工具不仅提升了数据的产出效率,同时也在数据、辅助标注模型的迭代中打造出了完善的AI基础设施。AI的未来就是数据到模型的无缝输出。”

星瀚资本创始合伙人杨歌则认为,要判断投资价值,最重要的是看产业能否闭环。

“要看上下游公司是否有长期的经济需求、会不会长期使用这个工具、工具成熟后会不会自己做,边际价值会不会递减等。评判一家数据标注公司,抛开上下游去评判是没有价值的。所以投资时,不能把标注了多少数据当做资产,一定要从供需角度去判断其价值。”

杨歌对钛媒体App表示,数据标注行业虽然to B,但和供应链、金融贸易等行业相比,需求存在不稳定性,且容易被替代。即便是做SaaS的技术公司,也很难有绝对的技术壁垒,基本属于营销导向或客户关系导向。而且这种服务型公司通常是乙方,市场把控和定价能力较弱,所以风险比较高,这也是投资时要关注的点。

误解三:数据标注不需要高学历

在以往的印象中,数据标注从业者往往学历不高、工作环境恶劣,但这只是行业的一枚切片,事实的一角。

那些“喂养”AI的人们,既有标注基地的标注员,也包括技术公司中做系统开发维护的程序员们。一个标注项目,往往先给到标注技术公司或众包平台,再由他们派遣给自营标注基地或外包人员。

以倍赛为例,公司当前有两条业务线,一条是自研的数据标注SaaS平台,另一条是为数据保密性强的大中型企业研发数据标注的私有化版本。公司算法工程师的日常工作,就是开发维护平台,并不断训练AI模型来辅助人工标注。

倍赛北京办公室都是SaaS平台的研发人员,有着纽约大学、上海交大、哈工大和北航的教育背景。钛媒体编辑到访时,一位算法工程师正在优化SaaS系统。系统中“物体自动识别”的能力已经可以自动识别并标注80种物体,该工程师正在“训练”AI识别更多的物体。

在工程师的打磨下,当前SaaS平台已具备从数据采集、打标签到直接生成模型的能力。倍赛自营的20多家数据标注基地和众包人员,均在其自有SaaS平台上完成标注工作。

“最近2个月,在我们的SaaS平台上有1万多人、700多个团队、面向300多个客户做着数据标注工作。我们的AI辅助功能也能提升效率。”杜霖介绍道。

除了倍赛这种标注技术公司,互联网大厂也正在深度参与数据标注工作。自2011年起,百度就自建数据采标团队,支持内部AI业务。面对日益增长的数据标注需求,百度后续开始输出其数据标注能力。

2018年9月,百度山西人工智能基础数据项目(以下简称基地)与山西省转型综合改革示范区签约。自签约至今,百度已经为山西引入35家国内数据标注企业,通过导入百度自有的数据标注业务,为人员提供业务培训,帮助标注企业实现了近亿元营收。当前,基地从业人员达到2000余人,是国内人员和产值规模最大的单体数据标注基地。

图片 百度(山西)人工智能基础数据产业基地

在此前的想象中,数据标注基地更像是“工厂里冷冰冰的流水线”,标注员们在非常机械地工作。然而,当钛媒体编辑走进百度位于山西的标注基地,看到一万平方米的基地,按照NLP、无人驾驶、内容识别、语音识别等门类分布着不同的办公区域。每20-30位标注员在一间办公室,都在对电脑上各色的数据文件进行标注,给人一种学生时代上电脑课的感觉。

图片 百度(山西)人工智能基础数据产业基地

基地的数据标注员李宇龙现在还记得他从业以来第一个,也是印象最深刻的项目。

他来自传统行业,接触的第一个项目就是“车道线“标注,这一数据往往被用来训练自动驾驶技术——在自动驾驶车辆行驶途中会自行连续拍摄图片,而标注员需要对图片上车辆经过的车道线进行编号,其中一种是识别实线还是虚线,因为车辆仅可以在虚线变道,实线不行。

“项目的难点是城市道路比较复杂,因为车辆多了有些车道线可能会被遮盖,还有在路口会遇到导流线,匝道和主道之间的分叉、交会是非常难的。”李宇龙对钛媒体App表示。

李宇龙刚上手时,只拿到了软件和一份规则,规则简单陈述了要在哪些位置打点。起初他觉得这只是重复工,但随着技能熟练度提升,他在标注上也面临了更多考验。

他最初接触的车道线是2D图片,但因为自动驾驶车上的激光雷达采集的是3D数据,这些从360度观测的、具有立体点状特征的数据需要标注员具备空间思维能力。

“在3D数据中我们看到的只有一片点状物,并不清楚具体是什么,标注员需要准确找到这辆车,并且把它的轮廓、长宽高的细节都标注出来。在这个过程中,标注员要先从2D图了解如何作业,记住规则口诀,搭配2D图一起看3D环绕的图形,这样最快可以在一个星期内掌握。”

入行两年后,李宇龙已经从数据标注员成为培训师,日常工作就是根据项目特点对人员进行培训。

据他介绍,从数据标注师做起,可以做到培训师,甚至成为机器训练师,要求会逐步提高。开始只需掌握标注技能,后来则需要发现缺失的数据或者程序bug。

像百度山西基地,大多数人都是专科背景,经过培训可掌握通用型的拉框或打点任务。但涉及到医疗、金融、语言、法律等专业领域,往往需要具备专业知识的数据师来标注。

“外界总是说数据标注是劳动密集型,但我觉得它也是知识密集型的”,杜霖对钛媒体表示。

比如医疗数据标注,会涉及到眼底数据、或肿瘤区域的图像分割,这种看片子的任务往往要由有专业医学背景的人负责;涉及到方言和外语的内容需要找掌握该门语言的标注员。金融领域则需要具备金融知识的专业人士来操作。

“像做法律文书标注或投融资事件分析时,就不能再找大专背景,得找相关专业的本科生。做医疗数据标注时,必须要找医学院的学生来完成。”杜霖表示。

误解四:薪资只是工人水平?

数据标注师的薪水也往往被认为是极其低廉的。但实际上,由于任务的规模和难度不同、要求的时限不同、以及是否涉及到专业领域知识、数据标注员们的薪资也有很大的弹性空间。

“由于项目标准不同,计费方式也不同。有各种计费的组合,有些是依照点、线、区域,有些是参照每张图,相对来说还是按计件收入算。”山西麟诺网络科技有限公司李应维说道。

“我做车道线项目时,一天8个小时能赚300块。这个收入在同事其实处于中等位置,收入最高的人一天可以破千”,李宇龙对钛媒体表示,“每个项目会有个上手期,之后会越做越快,质量越来越高”。

同在基地的标注员郭梅,刚入行时一天最多只能标注300根车道线,现在一天最多可以标注1700根,折算成收入便从每天70元涨到了每天300元以上。

“在基地里最高有人月入过万,不过收入均值会落在三千到五千之间,在山西太原是比平均水平好一些的。”百度(山西)人工智能基础数据产业基地负责人尉赤对钛媒体App表示。

尉赤也向钛媒体回忆道,之前有项目做英文数据,要求标注员必须持有英语四级证书。

“这种项目本身价值高的、属于专业领域的,整体收入也会更高。”

不过,数据标注行业分层较大,既有科技企业自建的标注基地、也有众包平台、以及团体或个人的小作坊。外包给个人或小作坊的产量不稳定,分到的任务会更初级,计费更低,这也就构成了数据标注行业薪资的下限。

数据标注行业与AI的应用场景息息相关,随着AI落地场景,对数据的要求也更加多样而复杂。国内最早需要大规模标注、同时最易获得的是人脸数据。与此同时,自动驾驶、智慧医疗、语音翻译转写等领域的AI落地也催生了不同的数据需求。以自动驾驶为例:物体检测所需数据量最少,只需要教AI认识几千到一万张图像,而自动驾驶领域涉及生命安全,不允许犯错,所需数据量往往在百万级以上。

在问及数据标注的难点时,杜霖表示“如何理解客户需求,并嵌入其实际业务”是比较难的问题。

例如,同样都是标注“人像”,实际方案却不同。如果商场要统计客流量,只需要框选人物轮廓计数即可;如果要判断是否有暴恐行为,就要对人物的动作行为进行分析;如果要判断人物情绪,就要对其脸部表情进行标注; 而做瘦脸特效的话,就要对人脸轮廓进行精细打点。

误解五:数据标注本身不需要AI?

有意思的是,行业虽然越来越成熟,但数据采集和标注工作所占的成本,正在AI模型的完整生命流程中逐渐上升。

据杜霖透露,2015年刚起步时由于AI工程师贵,数据采标成本仅占总体的10%-20%,但由于AI工程师的成本降了不少,数据需求量又越来越大,现在采标成本在总成本中已经占到了30%-40%。

因此,在从劳动密集型转向技术密集型的同时,数据标注产业当然也在利用AI提升效率。

当前,将技术引入数据标注流程已是业内通用做法,让训练好的AI模型反哺人工标注,也是标注技术公司的优势所在。

倍赛的数据标注SaaS平台,像Photoshop一样可选择标注界面和工具。倍赛还开发了一系列AI辅助的功能,内嵌在平台中供标注师使用。

比如AI辅助打点,以往标注师想要精细描摹一辆车的轮廓,需要手工打上30多个点。如果标注一辆车需要1分钟,那么标注图片上所有物体则平均需要1小时。

“借助AI辅助功能,现在只需在车的外轮廓上任意打4个点,系统就会自动把30个点全部打完,轮廓贴合的也很好。这样人工打点就能减少到4个,只需进行微调,减少了一半用时,效率也提升了。”杜霖对钛媒体表示。

图片 AI辅助数据标注之智能语义分割(来源:倍赛数据)

当前,有监督的机器学习技术占据了AI发展的主流,但学术圈已经开始向自监督学习模型进行探索——他们认为该模型能让AI从数据标注中解脱出来,无需任何人工标注数据就能完成学习。

不过,在一些全新的领域,机器尚不能辅助人类工作,数据标注仍需人力完成。即便有了AI自动化标注工具,依然要由人来做审核质检的最后一步。

“往往在较成熟的领域或熟悉的场景中会衍生出自动化工具,比如图像中的物体识别。机器要经过大量训练获取这种知识,才能作为工具去辅助人工。如果是全新的应用场景,在AI还没训练好的情况下是没法辅助的,”尉赤对钛媒体App解释道。

杨歌对钛媒体App表示,清晰且标准化的数据更适合AI标注,模糊且繁琐的社会性数据只能由人来进行。比如法院的案件要做归档处理,AI很难去判断案件到底是刑事还是民事。涉及到道德、原则、好坏方面的内容,需要由人处理。

杜霖则进一步向钛媒体App阐释,在数据标注流程中,AI辅助的比重往往与算法的成熟度成正相关。比如说检测人物时,一个熟练掌握“人像”的算法可完成70%的任务量,人工只需做30%。但用同样的算法去框选“物品”,可能人工标注就要占到80%。

问题在于,数据标注师在把AI“喂养”得更智能的同时,是否也在“革自己的命”?在未来,数据标注师这个新工种有可能被AI取代吗?

杜霖认为,在数据标注领域,AI完全取代人力尚且遥远。就拿自监督学习为例,这一技术仍属于前沿探索领域,在全场景内还很难落地,尚未实现大规模普及,更不用说从根源上去取代人工标注。

“现在正从信息化迈向数据化,工业4.0会使数据标注更加工程化。这个阶段还是以有监督式学习为主,它还没有完全成熟,现在算法还在不断迭代中。”杨歌表示。

但这个新兴的、离AI最近的职业,会不会有更深刻的“被替代”焦虑?

一些从业者这样回答:“数据标注师是最后一批被AI取代的群体,因为总有些工作需要人来做。”

本文来自网络

· One min read

新基建浪潮呼啸而来,人工智能产业乘风而上。AI作为许多领域数字化与智能化转型的基础与关键,在这场时代风口前迎来了新腾飞。

这场自上而下的变革中,大量AI需求被释放,直接刺激了源头产业,站在人工智能产业链上游的数据服务商,首先吃到了红利。

据国内知名AI数据服务商景联文科技透露,近几个月来,公司接洽的客户量明显上升,有几个科技大厂订单进入了合同阶段,其中一个“万人采集”的项目已经启动。

对于人工智能产业而言,应用层AI产品的落地发展离不开数据的支撑,在智能化大潮来临之时,AI数据产业进入了新一轮加速期。

数据是AI智能化的关键 “没有数据,就没有人工智能。”这是行业内普遍认同的观点。 目前主流的深度学习算法,本质是在神经网络系统中,调节和优化各个层级之间的权重和阈值,当层数越多,对输入特征的抽象层次就越高,这也意味着算法模型能够处理更复杂、抽象的任务,同时,对数据的需求也就越大。

Facebook AI研究院负责人、深度学习三巨头之一的Yann LeCun曾坦言,“你需要数据来训练你的系统,你的数据越多,你的系统就会越精准。所以,从技术目标和商业角度来看,数据越多越好。”

在智能化成为时代趋势的今天,许多领域都在积极拥抱AI。从随喊即应的智能音箱,到能够辅助诊断的智能医疗系统,利用AI为自身赋能,升级迭代的领域与企业越来越多,数据需求如雨后春笋般冒出,前所未有地旺盛。

AI技术要实现商业化落地,进入到我们的生活,这个过程必然需要大量高质量、能被机器识别理解的结构化数据投入训练。

纵观人工智能的发展,从算法、算力之争,逐渐过渡到了数据。数据成为了一种稀缺社会软资源,其意义就如同石油之于第二次工业革命,可以说谁掌握的数据,谁就掌握了未来。

· One min read

“导语:机器学习必需数据标注”

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习 进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。(来源:环球网)

· One min read

随着人工智能落地商业化进入快车道,无人驾驶、人脸识别、智慧安防等领域成为了热门的应用场景,AI公司关注的重点开始聚焦于产业落地能力上。

作为人工智能行业的基础,数据是实现这一能力的决定性条件之一。因此,为机器学习算法训练提供高质量的标注数据服务成为了决定人工智能应用高度的重要条件之一。

相关资料统计显示,2025年产生的数据量将高达163ZB,其中90%是非结构化数据。这些非结构化数据只有经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。数据标注行业因此得以迅速繁荣扩张。

随着产业落地成为行业发展大势,更具前瞻性的海量数据集产品和高度定制化服务成为了数据标注行业的主要服务形式。然而,由于数据标注行业存在门槛较低、服务质量参差不齐等问题,需求方在选择数据服务时往往会遇到数据质量、服务效率、数据安全、管理能力、服务能力等痛点,这些痛点已成为阻碍行业发展的核心问题。

  1. 数据质量

监督学习下的深度学习算法训练十分依赖于标注数据,数据集质量的高低将直接决定算法模型的效果。

然而,目前数据标注行业存在很严重的数据质量问题。相关数据显示,当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI企业的需求。

需求方希望数据服务公司可以提高首次交付项目的准确率,并大幅减少返工情况。

  1. 服务效率

目前数据标注行业主流的项目运营方式是以“众包”以及“转包”为主,数据服务企业很难对标注团队做到直接有效的管理,因此项目延期成为了一种常态。

对于需求方来说,项目延期意味着在激烈的商业竞争中丧失先发优势,所以对于需求方来说,希望数据服务公司拥有高效的项目执行系统,提高工作效率,可以按时甚至提前完成项目。

  1. 数据安全

数据标注行业的特殊性意味着要经常接触到很多敏感的数据,比如人脸数据、车牌数据等等,这些数据的存储、传输等对于安全性的要求极高。

因此,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储,以及结项后的数据销毁等环节足够重视。

  1. 管理能力

“众包”以及“转包”模式下,管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,这样的后果就是项目延期、数据质量差。

因此,需求方希望数据服务企业能够建立完善的内部管理流程,优化项目流程体验,达到效率与质量的双提升。

  1. 服务能力

数据标注业务从本质上来讲也属于一种服务业务,从项目对接到最终项目的完结,每一个环节都需要需求方与数据服务企业不断地商讨,从而做出最优解。

所以,需求方希望数据服务公司能够在项目进行中做到积极配合、快速响应,并可以对项目提出一定的优化建议。

以上五点是需求方对数据标注企业的核心诉求,如果这五点分别对应相应分数的话,那么总体得分越高就意味着越契合需求方的要求,就越能在激烈的竞争中占据排他性的优势。

对于数据标注企业而言,单纯依据客户项目的诉求进行执行略显被动,主观能动性低、行业边界有限,各家数据标注企业的产品和服务就将趋于同质化,竞争也会加剧,不仅不利于自身发展,同时也会制约着AI基础数据服务行业的发展。

所以,主动做出改变,迎合需求方的核心诉求,数据服务企业才能在激烈的市场竞争中建立差异化的优势,尤其在AI商业化落地加快的大背景下,能够在垂直场景中建立一套完整的数据整体解决方案,将在未来的市场竞争中增添重要的优势砝码。

· One min read

数据标注产业的发展,促进了人工智能的蓬勃兴起,其主要的应用行业和不同行业的标注场景总结如下:

(1) 自动驾驶:利用标注数据来训练自动驾驶模型,使其能够感知周围的环境并在很少或没有人为输入的情况下移动。自动驾驶中的数据标注涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,可以为相关企业提供精确的训练数据,为智能交通保驾护航。

(2) 智能安防:数据标注扩大了现有安防系统的感知范围,通过融合各种来源的数据并进行协同分析,提高监控和报警的准确性;其对应的标注场景有面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等。

(3) 智慧医疗:人工智能和大数据分析技术应用于医疗行业,可以深入洞察医学知识和数据,帮助医生和患者解决在医学影像、新药研发、肿瘤与基因、健康管理等领域所面临的影像识别困难、药物研发成本巨大、癌症治疗效果不佳等难题。

(4) 工业4.0:利用标注数据训练和验证机器人应用程序的计算机视觉模型,从而使模型对工业环境内的各类障碍物、机械设备和机器人有更加精确的感知, 实现工业智能机器与所处环境中人和物的安全交互。

(5) 新零售:将人工智能和机器学习应用于新零售行业,可以通过商品销售数据以及用户的真实反馈促进电子商务的销售,提高用户的个性化体验以及预测客户需求,并实现线上货物推荐的精准化。新零售中涉及的标注场景包括超市货架识别、无人超市系统和电子商务智能搜索与推荐等。

(6) 智慧农业:依托精准的数据标注实现对农作物的定位以及对其成熟度和生长状态的识别, 实现农作物智能采摘并解决精准农药撒播问题,从而减少人力消耗并提高农药利用率。目前,智慧农业中有关数据标注的场景有栽培管理、精准水肥和安全监测等。

· One min read

AI人工智能的蓬勃发展也带动了与其相关的数据标注行业的爆发性成长,经过最近几年的迅猛发展之后,

目前数据标注行业的经营模式已经慢慢稳定下来。

对于目前来说随着风投资金对行业的热情减小,无论是头部大型的人工智能企业还是其它互联网企业人

工智能项目的研发,他们对底层数据需求的市场把控,成本状况都已经非常的清楚,也因此成本管控与

之前来比较确实是越来越严格,高利润的数据标注项目已经成为过去。

也正在基于目前数据的现况行业一部分人员对 “数据标注项目怎样报价?怎样对数据标注项目进行报价?”

这个问题的认识越来越重视。怎样对项目进行合理的报价确保能拿到甲方项目已经成为标注公司项目经理

必须高度重视的问题。

 我们来分析下目前数据标注项目的成本状况以求最大可能来帮助大家对 “数据标注项目怎样报价?怎样

对数据标注项目进行报价?”这个问题有更深层次的理解?

一、我们认为在对某一个甲方项目进行报价的时候首先要考虑我们公司当前的运营模式,比如专门做项

目外包的公司除了要对人力成本,项目工时、运营成本,前期项目测试成本等方面进行严格的核算外,还

要考虑项目外包出去后公司的利润点,承接项目公司保证质检前提下的利润,必竞如果是公司直接做项目

的话就是少去一部分分包公司的利润点,这样核算下来的合理报价才是项目经理所有通盘考虑的。

二、人力成本是数据标注项目最大的成本,在标注工时不变的情况下怎么制定保证质量前提下合理的标

注效率,也是非常重要的。

 三、标注项目各项测试后一定要把项目标注规则,平台软件的问题,给充分搞清楚明白,尤其是标注

规则尽量做的边界清晰,避免模糊不清的规则要求,规则模糊不清最容易出现项目数据返工的问题。如果

确实是项目规则不是很容易限定边界那就需要和甲方沟通清楚,必要时把边部分成本也得核算进去。

 四、项目各方的沟通成本,畅通高效的沟通反馈速度对项目进度的推进也是非常的重要的,良好高效

的沟通反馈速度对项目问题解决,项目进度的推进也是非常重要的一环。这一点做为项目经理必须要深刻

的明白这一点。确保高效快速的沟通反馈渠道是项目施实的重要前提。

以上就是小编对标注项目报价基于标注时间效率、软件、规则界定,沟通效率方面的分析,有于篇幅限

制很多细节上问题就没有在这里细讲了,希望大家在标注项目管理施实的时候注意细节问题带来的成本风险。

同时也希望这篇文章能对大家关于“数据标注项目怎样报价?怎样对数据标注项目进行报价?”这个问题

有一定的帮助。

· One min read

近年来随着人工智能行业的爆发性发展,随之带来的是人工智能相关的数据标注行业也迎来了爆发性发展。 接下来我们就讲下人工智能相关的数据标注行业问题。随着数据标注行业的快速发展,行业从业人员的爆发 性增长大量从业人员在经历行业入行初期阶段之后,因为数据标注行业创业门槛很低就出现了相当一部分人员 就走进了数据标注创业的大军。 对与数据标注行业创业公司工作室的创业者来说,"数据标注从哪里接单?数据标注从哪里接到一 手的项目?";这个问题始终伴随着他们,有的数据标注创业者是在创业前期都要考虑的,有的是创业一段时 间之后才会发现这个问题的紧迫性。 多数创业者以及想创业的人对与数据标注从哪里接单?这个问题是非常的困惑。下面我们就来讨论下数 据标注项目都是从哪里接单的。 目前AI行业除了行业头部百度、京东、阿里这些公司有丰富的行业资源之外,有相当一部分公司他们的AI 项目底层的数据采集,数据清洗,数据标注都是外包出给其它公司或者团队的。 点我科技从16年进入数据标注行业,下面就从我们在标注行业这几年的经历来介绍下标注行业项目的接单 模式: 一、从专业大型的数据服务外包公司接单,如数据堂、倍赛、海天、数加加这类规模比较大的公司他们有大 量的投资人行业资源对接,行业影响力大项目相对来说比较多。 二、有部分公司或者工作室他们有大的数据外包公司 人脉资源,从而能获得相对多的项目 三、就是从有些公司接二手三手的标注项目,这类公司在行业QQ群,帖吧非常活跃他们这种公司就是以接包转 包为主 四、靠长期行业积累的人脉及客户口碑给介绍来的一手项目。 五、有相关一些小工作室 小公司他们主要是靠贴吧,行业QQ群来接一些二手项目,这类工作室公司往往会因 为转包方跑路或者是项目方结不到款而蒙受损失。 以上差不多就是目前标注行业主要的几种接单途径,在这里也劝中小工作室在接项目的时候要仔细认真的分析项 目及项目发包方,一定要找信誉好签合同开发票的项目方,尽量避免白劳动的情况发生。

· One min read

据相关资料显示,在中国至少有10万的全职数据标注员以及达到100万的兼职数据标注员。

看到这个数据,不禁想问数据标注到底是一个怎样的行业?

其实早在1998年第一家标注公司成立的时候,该行业就已经出现,只是那时人工智能尚未兴起,数据应用相对较少,直到2011年以后针对人工智能的数据标注才逐渐出现。

人工智能行业离不开数据标注行业。为什么这么说呢?

因为对于人工智能企业来说,优质的数据是不可或缺的。换而言之,数据的真正价值不在于数据本身,而在于数据背后所反映出的真实性与科学性。能够对数据进行分析、开发和利用,从中创造新的价值,取得实际应用效果这才实现了数据的价值,而数据标注就是体现数据价值的过程。

最初,由于数据标注的需求量不是太多,基本是由公司内部的工程师或者算法团队自己完成。

但随着人工智能的广泛应用和普及,计算机机器深度学习的不断深入,对数据的需求与日俱增,那大量的数据从何而来呢?

于是专业的数据标注员产生了。数据标注员相当于互联网上的“编辑师”,用一些数据标注工具,对大量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等工作。

任何一家为人工智能企业提供数据标注服务的公司都离不开“编辑师”这样的角色。毕竟人类的认知一直领先于机器智慧一段距离,目前的AI还无法胜任数据标注员的工作,机器学习依赖人类“喂食”,而填饱机器的“美味佳肴”则需要标注员们烹饪。

在大数据时代下,各行业都面临着新的机遇与挑战,作为与人工智能密切相关的数据标注行业更是如此。关于数据标注行业还有更多未知等待我们去探索。