Blog | 学习笔记

Neurala为Brain Builder添加了视频注释工具，以加速AI数据准备释工具，以加速AI数据准备

2021年12月11日 · One min read

波士顿 - Neurala公司今天推出了一款新的视频标注工具，该工具由Brain Builder平台的人工智能辅助。“自动视频注释将显着加速神经网络的数据标注，从而帮助组织更快地培训和部署AI，”该公司表示。

标记图像和视频对于开发用于建模和训练AI应用程序的数据集至关重要。Neurala 以软件即服务（SaaS）为基础提供Brain Builder，以帮助简化深度学习的创建，分析和管理。

Neurala的联合创始人兼首席执行官Massimiliano Versace说：“人工智能数据准备的传统方法极其耗时且耗费人力，需要大量数据，需要经过精心和昂贵的注释。” “我们与Brain Builder的目标是通过易于使用的注释工具降低进入门槛。通过添加视频注释，我们能够进一步自动化数据准备，帮助组织将AI数据准备的时间和成本降低至少50％。“

Neurala的专利和获奖技术源于2006年NASA，DARPA和空军研究实验室的神经网络研究。2013年，该公司加入了Techstars商业化计划。

“每个人都想要AI，但他们不知道为什么，”Neurala的联合创始人兼首席运营官Heather Ames Versace说。“视频注释工具是终身AI技术堆栈的一部分，可提供透明度。”

启用AI的注释可节省时间，提高工作效率

当用户标记视频中的人物，物体或缺陷时，Neurala的新工具可以反复学习。Neurala表示，在用户在第一帧中标记感兴趣的项目后，该工具会自动在后续帧中注释相同的项目。

例如，如果五个人输入一个框架，则在用户仅用一个人标记第一个框架后，它们将全部自动注释。相比之下，用户必须在他或她进入框架时标记每个人，这将花费更多的时间。

此外，AI辅助视频注释可以提高标签处理速度并提高生产力，Heather Ames Versace告诉“ 机器人商业评论”。

例如，用户可以注释10秒视频的一帧并获得300个注释的输出，而使用传统的注释方法，用户需要手动标记300个不同的图像才能获得相同的结果，Neurala说。

“可解释性和信任始于数据，”Heather Ames Versace在最近的AI World大会上说。“通过在更短的时间内对数据进行注释和标记，团队可以进行更快速的原型设计。”

用Brain Builder存钱

“最终，它将帮助组织和开发人员更有效，更具成本效益地构建，培训和部署人工智能，”Massimiliano Versace说。“当涉及视觉AI的构建方式时，Neurala的Brain Builder平台已经在改变游戏规则。而现在，视频注释将进一步扩大可访问性和生产力的可能性。“

Neurala说，Brain Builder还可以提供可观的投资回报。使用Brain Builder，组织可以以每小时6,750美元的视频进行注释，而没有它的则为13,500美元。

Neurala发布了一个教程，概述了使用Brain Builder在视频中标记对象的过程和好处。它还解释了如何使用TensorFlow训练语义分段网络。

此外，本教程还引导观众了解跨多个GPU的培训步骤，这可以进一步缩短培训时间。

远在非洲的数据标注工厂也在为人工智能打工

2021年12月11日 · One min read

远在非洲的数据标注工厂也在为人工智能打工

他们也会服务中国的人工智能公司

人工智能背后不为人知的贡献者——生活在肯尼亚贫民窟的一群人。在非盈利组织Samasource的帮助下，他们为硅谷大型科技公司的人工智能研究提供数据标注服务。

我们一起来看看国外的数据标注到底是什么样的

人工智能如人们预期工作时，硅谷企业总喜欢说一切“好似魔法”。

但实则不然。魔法的背后是布兰达（Brenda），一位26岁的单身母亲。她目前居住在非洲最大的贫民窟基贝拉（Kibera），或许这里也是全球生活最艰难的社区。在这里，成千上万人住在一个比伦敦海德公园大不了多少的地方。

每一天，布兰达坐着公交车前往肯尼亚首都内罗毕东部。在那里的一栋大楼内，她和其他1000多名同事为人工智能的另一面——我们所知甚少，所见更少的一面——辛勤付出。在八小时的工作时间内，她需要负责创建训练数据，即把数据——大多数为图像——加工成计算机可以理解的形式。

布兰达（左）

布兰达先是上传一张图片，然后用鼠标跟踪里边的所有物体。人、车辆、路牌、车道标记——甚至天空，还要特别说明是晴朗的还是阴霾的天空。将数百万张这样的图片输入到人工智能系统中，意味着（比方说）一辆自动驾驶汽车可以开始“识别”现实世界中的物体。数据越多，理论上机器越智能。

在狭小的办公室里，她紧挨着身边的同事，紧盯着显示屏，放大图像，防止标错哪怕是一个像素。一名上级人员会检查他们的工作，若没有达到要求，就需要返工。速度最快、准确率最高的训练员的名字可以出现在办公室的多台电视机屏幕上以作鼓励。而最受欢迎的奖励则是：购物券。

“你可以做一些与众不同的事情，”当我拜访她时，布兰达告诉我说。她和自己的女儿，兄弟还有母亲一起蜗居在一间拥挤的小房子里。“我现在的工作，让我相信我的努力正为未来的某些人提供帮助。”

贫民窟学校

布兰达的雇主是Samasource。这是一家总部位于旧金山的公司，客户包括谷歌、微软、Salesforce和雅虎等。这些客户大多数都不会希望讨论他们与Samasource合作的细节本质——因为大多与未来项目有关——但可以说，在贝罗毕这栋大楼里准备的数据，构成了硅谷一众大公司在人工智能领域得以开展研究的重要一部分。

布兰达在标注数据。

这种技术进步或许永远都不可能出现在基贝拉这样的地方。作为非洲最大的贫民窟，这里有太多亟需解决的问题，比如缺少清洁淡水，以及众所周知的卫生危机。但这不代表人工智能不会在这里产生积极的影响。当我们在这个下雨天驱车前往基贝拉少有的几栋永久性建筑之一时，我们发现，这栋位于铁路线附近的建筑虽残破不堪，但显然自殖民以来经常性为人们所使用。

大约一年前，这栋建筑是扔石头的暴徒与军队之间的分界线。今天，它已经成了一个蓬勃发展的活动中心，里边有一个媒体学校和工作室，有一个自助餐厅；而在楼上的一个房间里，满满当当的都是台式机电脑。在这里，吉迪恩·恩尼欧（Gideon Ngeno）教授向25名左右学生传授个人计算机的基础使用知识。

在这个过程中有趣的一点是：哪怕是在基贝拉这样的地方，人们的数字化素养其实不低。这里，智能手机十分普遍，其它所有商店都有充电器和手机配件等出售，并且人们会使用移动支付系统MPesa来购买这些东西。

为自动驾驶做数据标注的范围包括人、车辆、路牌、车道标记——甚至天空。

但非洲的大多数地区都没有经历过台式机电脑的年代。键盘和鼠标的组合对他们来说完全是一种新奇陌生又复杂的体验。一名Samasource的团队成员告诉我说，在被要求搜索互联网上的信息时，她经常观察到有学员不是看着电脑，而是拿起他们的手机。

在这里教授的课程则是为那些希望继续在Samasource等数字经济公司工作的人专门设计的。学费为500肯尼亚先令（5美元左右）。对那些经常生活在贫困线以下的人来说，这个费用也还可以承受。公司一开始是免费提供课程的，但我后来得知，由于没有经济上的付出，考勤（和上课认真程度）都不太理想。

恩尼欧教授说，目前上课最大的困难是噪音——就在我们说话的间隙，一群小孩子发生阵阵吵闹声。而在外边，又是一个人来人往十分嘈杂的集市。

适合加州的园区

相比之下，Samasource在内罗毕的办公室位于一处发展形势比较好的位置。公司位于一商务园区建筑内，总共占据四层楼，拥有大量用于数据训练的计算机。

数据标注可以让一辆自动驾驶汽车开始“识别”现实世界中的物体。

如果不看窗外景色，你恐怕会以为自己身处于一家硅谷科技公司内部。墙上贴着瓦楞铁皮，这种装饰方式放在加州的话算得上走在时髦前沿。但是，提醒你这是在非洲——而不是加州——的一点是：大部分工人（近75%）来自平民窟。

最令人印象深刻的是，Samasource克服了大多数硅谷企业努力想要解决的问题。近半数的员工为女性，这在母亲同时也负担家庭经济的国家，实属了不起。在这里，有哺乳室，长达90天的产假，以及灵活的轮班模式。这些均让这家公司不仅在肯尼亚，就是在全球，也是一个出色的榜样。

“人们常说，男人工作养家，”人力资源负责人海伦·萨瓦拉（Hellen Savala）说，“但女人工作的话，她不仅养活自己家，也会帮助更大的家庭。这样的话，你就会拥有更大的影响力。”

“不可能成功”

这种平衡不仅只存在于入门级工作中间。在旧金山的Mission District，在比肯尼亚办公室小很多的办公室里，Samasource的首席执行官蕾拉·焦纳赫（Leila Janah）谈及如何让公司管理层女性占大多数时莞尔一笑。她说：

“在硅谷，尤其是在人工智能领域，这样的情况实属罕见。但我们认为这没什么特别的。这也是一种竞争优势。”

蕾拉·焦纳赫（右）

Samasource成立于2008年。公司早期并不受待见。在美国经济衰退期间，大量向发展中国家外包工作并不受人欢迎，可以说现在仍不受欢迎。

而那些发自内心欣赏公司理念的人则又担心的是，发展中国家的工人缺乏必需的数字技能，担心他们的工作达不到科技巨头们愿意接受的标准。

“科技圈里和慈善界的有识之士都说这是一个非常好的想法，但是它不可能成功，”焦纳赫回忆说。今天，Samasource是东非同类型组织中最大，同时在亚洲和北美均设有机构。

廉价劳动力

焦纳赫自豪地表示，公司在准确性和安全性方面的记录，是赢得谷歌等大公司合同的重要因素。但毫无疑问，这些公司愿意与Samasource合作的另一个明显动机是，这里有全球最廉价的劳动力，并且当地人迫切需要稳定的工作。

Samasource希望帮助的目标是，目前每天薪酬低于或刚达2美元，并且还是从事所谓的“怪异”地下经济或危险职业的人。Samasource可以提供每天约9美元的薪酬。这对当地人来说已经是了不得的飞跃，虽然跟硅谷相比仍微不足道。

吉迪恩·恩尼欧向学生传授个人计算机的基础使用知识。

“确实，它有很高的成本效益，”焦纳赫说，“但我们工作中的一个关键点在于，我们不会提供可能破坏当地劳动市场的薪酬水平。如果我们给出的薪酬过高，我们会给整个社会带来麻烦。比如，可能会对我们员工所生活的社区的住房成本、还有食物成本等带来潜在负面影响。”

当然还有一个问题是，如果这种工作不再有需求会发生什么情况。Samasource的主要业务是为自动化系统提供数据。那么，如果创建数据的过程也能够自动化之后，会怎样呢？

“这是一个关乎几十亿美元的科技问题，我相信每一个人心中多少都有类似担忧，”焦纳赫说，“我认为，在这个问题上，媒体有炒作过度之嫌。但你要是跟开发这些算法的数据科学家们深入交流后，你会发现机器远没有大多数人想象的那么智能。我们仍需要训练数据很长一段时间。”

“这份工作改变了我的方方面面”

数据训练专家其实是一项极其无聊的工作、充满了重复性、永没有尽头的任务。在镜头之外，有些员工会讨论如何面对快速工作以实现公司指标的压力，因而休息时间也大大减少。有些Samasource的工人现在虽然是自由职业者，可以在任何地方工作，但每当工作时都会一个网络摄像头监视他们的工作。

伊德里斯·阿布迪（左）

我们在办公室内看到的所有工人都没有得到任何适当的符合人体工程学的支持，经常伏在电脑前连续疯狂点击鼠标数小时——这对眼睛和身体都会造成一定压力。公司表示会考虑解决这个问题。

对工作的抱怨在这个行业内并不少见，不过时常会得到快速的跟进和解决。

Samasource表示，公司在发展中国家至少影响了近5万人；他们要么在Samasource工作，要么他们的家人在Samasource工作。根据公司对前员工进行的问卷调查，公司发现近84%的前员工会选择接受更正式的工作，或接受高等教育。

其中一个从此走向成功的员工叫伊德里斯·阿布迪（Idris Abdi）。25岁的阿布迪在工作后，得以搬离贫民窟。

“这份工作改变了我的……方方面面，”他说，“改变了我的认知，它让我看到未来的希望。”(小白)

看到他们的，我们才知道我们的数据标注工作室比他们好多了。

数据集是人工智能（AI）的生命线 - 可以说，它们使模型成为可能。但是，没有相应注释的数据取决于正在运行的算法的类型（即，监督与无监督），或多或少是无用的。这就是为什么像Scale这样的样品标签创业公司筹集了数千万美元，并吸引了优步和通用汽车等客户。这就是为什么Kevin Guo和Dmitriy Karpman共同创办了Hive，这是一家使用由数十万志愿者提供的注释数据来培训特定领域AI模型的创业公司。

拥有近100名员工的Hive在从PayPal创始人Peter Thiel的创始人基金和其他人那里筹集了超过3000万美元的风险投资之前不久推出了旗舰产品--Hive Data，Hive Predict和Hive Enterprise。

Hive AI

“我们建立了[Hive]，因为我们觉得虽然围绕人工智能和深度学习有很多兴奋，但我们没有看到很多实际的应用程序正在构建，”郭在电话采访中告诉VentureBeat。“有很多炒作，但他们真正要解决的问题似乎并不明显。大多数这些都是有些工作的演示，但并不是真正的企业级。“

为此，Hive通过Hive Work招募了大部分人类数据贴标人，Hive Work是一个智能手机应用程序和网站，指示他们完成分类图像和转录音频等任务。作为交换，Hive发放了一小笔奖励 - 每周数万美元。（郭说它可以使用“激增定价”来确保在必要时更快的周转时间，例如当Hive客户有特定项目时。）

该战略取得了成功。Hive在其贡献者社区中的30多个国家/地区拥有近700,000名用户，他们每天帮助处理大约一千万个标签，准确率达到99％。（这种准确性部分归因于一个淘汰系统，它每隔一段时间就会进入“已知”任务，确保用户不会对系统进行游戏。）客户通过提供数据标签服务的Hive Data挖掘员工队伍。针对多个垂直行业量身定制。

“获取培训数据来构建这些模型实际上非常非常重要。从某种意义上说，自动化的唯一方法就是招募大量的人力，这几乎具有讽刺意味，“郭说。“你可以拥有最好的框架，但如果没有良好的训练数据，你将无法获得良好的输出。我把它比作一个人类的头脑：你可以拥有最聪明的大脑，但如果你不教这个大脑猫狗之间的区别并展示它的好例子，它就永远不会认识到猫与狗之间的区别。“

Hive Work的输出还提供Hive Predict，为企业提供定制设计的计算机视觉模型，帮助企业实现业务流程自动化; Hive Enterprise，针对汽车，零售，安全和媒体等领域，提供从头开始构建的专有数据的定制深度学习模型。Hive使用基于Google开源TensorFlow框架的后端，通过API或云开发AI系统，或与集成合作伙伴合作设计内部部署解决方案。

到目前为止，凭借其内部服务器和网络基础设施，Hive创建了机器学习模型，可识别活动，预测年龄和性别，对汽车进行分类，确定相机传感器与感兴趣主体之间的距离，甚至可以检测爆炸等事件，电视节目中的枪声，战斗和广告。郭拒绝透露Hive的任何客户的名字，但表示每个客户每个月都会发出数千万的API请求。

Hive的模型之一 - 徽标模型API - 当然会检测徽标，但也会检测它们显示的产品或广告以及它们可见的持续时间。Hive声称，与Google Vision Cloud的5％召回率和66％的精确度相比，它具有99％的召回率和98精度。

Hive每周增加100个徽标，目标是在2018年第四季度达到10,000。

“我们的质量标准远远高于其他所有人，”郭说。“我不希望[Hive]成为另一个真正过度的人工智能公司，它实际上无法构建技术，我认为这对整个空间来说并不好。”

数据标注「星尘数据」获数百万元天使轮投资

2021年12月11日 · One min read

公司8月获得天使轮投资，由天使湾领投，英诺天使、老鹰基金和创势基金跟投。

Tractica预测，2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用，优质的数据必不可少，正如业界共识“大量数据+普通模型”比“普通数据+高级模型”的准确度更高。所以，前端的数据采集、加工环节单拎出来成为了新的机会点。

其实，数据标注并不算一个完全新兴的产业。成立于1998年的“海天瑞声”已在语音领域耕耘近20年，因为人工智能一词的提出，最早可以追溯到20世纪50年代，不过此前主流技术没有到“深度学习”的阶段，所以数据用的相对较少。目前这个赛道上，成立久的有“数据堂”，早期公司有获得明势资本Pre-A轮融资的“爱数智慧”，完成天使轮融资的“泛涵科技”，获得合力投资数百万天使的“丁火智能”，获金沙江领投的“龙猫数据”，自营数据工场的BasicFinder等。

“星尘数据”也是赛道上一员，平台上聚集了2万多名大学生，通过众包方式提供数据标注服务。比如，在文本场景中，标注特定词语之间的关联关系，可以训练机器理解用户评论，也就是常说的语义识别。又比如，地产场景中，人工标注户型结构。再比如，生物医学场景中，需要人工标注人眼虹膜。

最前端，“星尘数据”根据客户的挖掘需求提供咨询服务、优化方案。之后的标注任务，在星尘自研发的“stardust”系统中完成，平台上有客户提供的数据和标注模型，任务会被切割分配给每个C端，形成“动态发题”，通过“准入考核”的C端才能认领答题。过程中，“stardust”系统会辅助标记。例如，正常的图像识别训练，需要人工一点点贴边抠图，比较费时，而stardust系统中，人工只需要标注出绿色的正区间和红色的负区间，系统就能自动抠图（如下图）。再例如，语音识别时，系统可以先自动转换一部分文字，来降低人的工作量。

我们知道，数据标记是个重人力的劳动密集型行业，这类公司的关键点就在于——人员效率、交付质量。

“stardust”系统便是星尘数据的主要差异点，背后离不开算法的支撑。星尘团队也都是算法出身，创始人兼CEO章磊曾在世界银行、华尔街、硅谷工作8年，涉及金融、保险、数据、量化、风险模型、人工智能等方向，在硅谷开发了世界首款股权投资机器人，在北京担任首席数据科学家。联合创始人董磊曾工作于百度人工智能实验室（前吴恩达团队），从事基于移动端数据的分析与建模工作。

目前，通过“stardust”系统，人的工作量在80%，机器的工作量在20%，这个比例还在不断优化中，未来机器可能占到80%。

在36氪之前的文章中，有创业者表示不会用机器标注替代人工，“因为人工标记的数据在误差层面符合正态分布，而机器标记的都是同一水平，用机器生产的数据再训练机器，并不利于AI最后的训练效果。”以及，理论上，下游的应用公司算法更强，若用算法进行抠图，企业客户为什么不自己标注？

对此，章磊认为，人工标注确实会有偏差，但这种偏差并不会有助于机器训练。准确答案只有一个，星尘可以通过算法机制保证输出正确结果，目前的准确率在99%。并且，下游应用公司的最终模型和标注时需要的模型还是不一样的，星尘的模型是用来提高效率的。

还有个普遍的问题就是有关数据安全和复用，这方面星尘跟硅谷数据安全公司合作，用加密技术在数据底层做隔离，分离数据使用权和拥有权，防止数据在众包过程中泄漏。由于每个公司对数据的要求不一样，只有在一些通用的逻辑中，数据才有可能复用，比如智能客服，所以星尘基本不会留存数据，除非客户有售卖的特殊需求。

至于收费，星尘主要根据数据标注量和难度来报价，平均客单价在3-5万元以上，大客户甚至到百万级别。目前公司已经服务了10家左右客户，3-5万的单子耗时不超过1周。

章磊分享，数据的需求贯穿AI公司的各阶段，占公司支出10%－20%左右，像商汤科技就在用300人的团队标记几千万的人脸图片。现有的国内外标注营收估计在30亿人民币，预计3年后达到100亿。

不过，对于这一波因为深度学习而兴起的数据服务商来说，最大的潜在威胁很可能并非来自竞品，而是来自于增强学习、迁移学习等算法，后者仅需要少量的数据即可以达到一定的效果。章磊认为，迁移学习等确实是将来的趋势，就单个模型来说，积累越久，数据需求量肯定会越少，但对于新模型来说，前期的需求量不会少，而模型是在增加的，所以对于“数据标注”这个正处在上升期的行业，暂时不会有明显影响。

据悉，“星尘数据”公司在今年5月份注册，8月获得数百万元的天使轮投资，由天使湾领投，英诺天使、老鹰基金和创势基金跟投。团队目前在10人左右，还在扩招中（Python工程师岗位，高级销售经理岗位，高级市场经理岗位），如果你也对该公司感兴趣，可以投递简历至liaijun@stardust.ai。

本文来自36氪

明略数据是谁？为何能拿下腾讯在行业AI的高额投资

2021年12月11日 · One min read

明略数据，究竟是一家什么样的公司？

昨天，这个低调的AI独角兽官宣了一轮已于去年完成的10亿元融资，C轮，华兴新经济基金和腾讯领投。更早之前，红杉资本中国基金是明略数据B轮的领投方。

值得注意的是，这则简短融资消息背后，也隐含着巨头们对潮水方向的判断。

Why？

有两个人最适合回答该问题。一是腾讯投资董事总经理姚磊文（Levin Yao），他是腾讯投资在AI赛道上的“捕手”，也是腾讯投资明略的直接负责人。

二是明略数据创始人及董事长吴明辉，他是明略的掌舵者，也是最先感知春江水暖的行业先锋，实际上这也是吴明辉的二次创业，在明略之前，他发起创办了营销领域声名卓著的“秒针”。

So，开门见山，围绕本次风向标式的投资，量子位请他们分享下对行业AI、未来趋势和明略发展的看法。

腾讯的逻辑

姚磊文（Levin Yao），一个逻辑清晰、言语简练的投资人。在被问到此次投资的背后逻辑时，这位腾讯投资董事总经理径直以“3个3”回答。

第一个“3”，行业趋势，姚磊文表示在AI加持下，大数据和云计算意义被重估，价值也在得到史无前例地释放。

之前马化腾有金句：在云端利用AI处理大数据。

而姚磊文则对此有更具体的解释：

首先，大数据正在给各行各业带来效率提升的机会，这是大趋势；

其次，支撑这个大趋势的核心原因，是数据的价值在云计算和AI作用下实现了价值放大，表现为线上线下数据开始有效打通，可以更加精准地识别用户需求，给用户带来更好的服务和价值；

第三，越来越多的智能传感器，又在进一步完善数据规模和维度，伴随数据联网化、分析能力等技术提升，数据价值倍数级放大。

于是在很多垂直应用场景，比如金融、工业、安防等，AI带动的数据价值提升，带来了更大的势能作用。

第二个“3”，是在趋势和时间节点踩准的前提下，AI落地的3个重要维度。

首先是选到一个有海量数据的领域切入，以明略为例，最先迈入的公安安防领域，破案和反恐，都是涉及海量、多源，且数据动态更新的领域；

其次是刚需明显。社会各界对安防领域一直都有巨大投入，不仅商业上有价值，还有积极的社会价值，是一个极富潜力的价值创造领域；

最后是固有解决方案有缺陷。传统大数据服务提供商，在现有AI解决方案上留有空间，后入的创新者机会很好。

所以从这3个维度来看，明略目前选择的公安、金融和工业，都有很明显的结构性机会。腾讯在这个方向上综合考察多家公司后，认定明略会是战略和财务上都能有优质回报的标的。

姚磊文强调说，腾讯挑选投资标的非常谨慎，原则就是：选最好的公司，给最多的支持，让它快速成为赛道领头羊。

新美大、京东、滴滴和链家等，都是腾讯投资原则下诞生的优秀成绩单。

但对于明略这样的行业AI公司，也不是不存在挑战。

依然是3点。

第一，数据本身体量大，维度多元，数据治理原本就是一个很大的工作，需要一个标准化流程，将非结构化数据变成结构化数据，这其中涉及对技术和行业的深刻理解。很多情况下，可能会面临数据很多，但不可用，数据孤岛是行业AI的瓶颈之一。

第二，当前AI技术发展尚处于初期，可以提供的价值创造有限度，无论是视觉、语音，还是自然语言理解，都还有待技术实现更大突破。

第三，AI to B，就会涉及到B端客户的认知度，特别是对于政企，需要时间和接受过程，明略等行业AI的早期投入企业，一方面有技术落地的硬性需求，另一方面也有市场教育和认知普及的潜在任务。

“挑战有，然而都能在不远将来得到解决。” 腾讯投资董事总经理姚磊文总结道。

明略的AI

OK，趋势和行业逻辑已经很明确，但明略到底做的是什么的？

不妨先看一个直观的例子。

2017年，明略正式对外发布了用于公安研判的AI人机交互产品“小明”，并正式在一些省市公安机关入职上岗。

“小明”可以干什么？

他不仅能把潜在犯罪嫌疑人的历史图谱分析清楚，而且还能结合时间、地点和其他维度，最后为公安民警提供决策参考，可以说是民警的研判助理，但又因为具备AI的学习及计算分析能力，堪比富有经验的优秀老民警，甚至可以说是民警标配的“福尔摩斯”。

这差不多就是明略业务产品的缩影。选定一个行业，找到刚需痛点，基于大数据，结合AI在感知和认知方面的能力，给出行业性解决方案。

本质上是利用AI降低成本，提高效率。

而上述举例所说的“小明”，只是明略行业AI落地的人机交互产品。“小明”背后，还有基于知识图谱数据库产品“蜂巢”，以及AI大脑“明智系统”。

△明智系统产品体系

与火热的感知AI不同，明略要落地的，叫认知AI。

这套思路，3年前从公安安防开始，现在延伸拓展到金融、工业与物联网等行业中，选知识型劳动的现实痛点切入，提供AI解决方案，并以此营收。

这还只是开始，吴明辉说：这是一个前期投入大、起初方案打磨时间长，然而一旦开始合作，增长稳定，壁垒深厚，而且AI还会随着数据增长而巩固优势。

这位明略创始人还透露，如果保持每年2-3倍的增长速度，明略在1、2年后便会是一家盈利公司。

而这还未将认知AI可能到来的技术革新计算在内。

认知AI

北大AI实验室出身的吴明辉，将AI按照“感知AI”和“认知AI”划分。感知类于人的眼、耳、口等感官，认知则更偏大脑新皮层，其中有逻辑思考、想象力、语言能力、符号处理能力。

感知+认知，构成人类完整的智慧能力。

此前，伴随深度学习带来的突破，感知AI正在前所未见地变革行业，让万物有灵。

△明略数据创始人及董事长吴明辉

现在，吴明辉认为“连接点”已经出现，感知AI和认知AI，正在寻求更全面地对接。

吴明辉说，在公安安防的AI系统打造中，感知方面的智能摄像头、视频解析，正在与认知领域的知识图谱等对接，双方正在呈现出越来越强的合作连接趋势。

但吴明辉也强调，之前相互独立发展的二者，现在所处的发展阶段也不同。

他表示现在认知AI方面的进展，尚处于方兴未艾阶段——“相当于深度学习在2011年时所处的阶段。”

对于认知AI的发展，吴明辉也给出了3点看法，指需要分3步走。

第一步，实现数据在线，即腾讯姚磊文所说的数据网联化；

第二步，基于数据在线实现分析和挖掘；

最后，形成彻底的AI业务闭环，拥有完整的行业解决方案，从最直观的感知，到后端支撑的认知，完成完整闭环方案，且有源源不断的客户价值产生。

这也是目前明略40多个项目经理分布全国各地的原因，因为行业AI落地很难“拿来即用”。

所以当我们问“行业AI落地所需”时，吴明辉给出的答案是：AI产品经理——这也是他在明略内部的自我定位。

吴明辉说，目前需要的产品经理一样的角色，把AI技术能力和客户需求梳理打磨，完成闭环的业务产品。

他解释称，这是人工智能的第一性原理。

最核心的环节是形成产品闭环，而且最重要的是这个闭环并非完全机器永动循环，而是打造用户体验良好的人机交互入口，让所有的客户源源不断参与到“数据标注”、模型训练中。

秉持这样的观点，实际也跟目前认知AI所面临的技术挑战相关。

在吴明辉看来，认知AI的终局就是一个无所不会的“问答系统”。

无论用户、客户用什么样的语言、表达方式，这个问答系统都能准确理解、准确回答。

然而以一线从业者身份发言，吴明辉觉得这个终局还“路漫漫其修远兮”，因为即便明略的AI产品现在就已经在发挥作用，但核心还回答不了“why”的问题。

“你问AI，这个嫌疑犯为什么犯罪？它现在只能是懵的，不可能直接回答你。”

但AI可以做的是帮你找到犯罪相关的线索、情报，并且提供一些基于数据的分析。吴明辉认为行业AI落地可以从这样的方式打开局面，更何况这也已经是很多深具经验的老刑警才能完成的工作。

值得一提的是，这也是吴明辉认为行业AI将会带来的新常态。

AI带来的并非是工作的冲击，而是人类的进一步解放。

一方面是把人类从枯燥重复的脑力劳动中解放出来；另一方面则是做哪些人很难搞定的任务，最终让更多人投身更加有价值的工作中。

沿着这个使命，以及围绕知识型劳动的AI打造逻辑，明略还会进军更多领域，还会选择“做重模式”，派驻大量科学家、技术人员在客户现场，通过构建行业知识图谱，实现从个体赋能到全局智能的产业转型升级。

吴明辉说小目标，就是巩固明略面向AI的数据融合、治理能力在业内的江湖地位。

而为了实现这一小目标，这位明略公司“首席产品经理”，也花大量精力在人才招募和前沿技术研究，这也是吴明辉兼顾天使投资的原因之一。

我问他成为AI产品经理的建议，他笑而不语，最后半真半假地说：“这是明略数据的核心秘笈，我不能公开，但欢迎有识之士尽管来试试。”

明略数据营销副总裁透露，吴明辉从2006年正式创业，北大结缘的师兄弟们，几乎都不曾离开过。

如今，刚刚庆祝四周年生日的明略数据，已有400多位员工。

关于明略是谁，这个问题，吴明辉说， “你的价值观是什么，决定了你是谁，明略开始的第一天就是客户第一，员工第二，股东第三。”

本文来自搜狐新闻

谷歌发布迄今最大注释图像数据集，190万图像目标检测挑战赛启动

2021年12月11日 · One min read

新智元导读】今天，谷歌宣布开放Open Images V4数据集，包含190万张图片，共计600个类别，共标记了1540万个边界框，这是迄今的有对象位置注释的最大数据集。基于此数据集，谷歌将在ECCV 2018举办大型图像挑战赛。

2016年，谷歌推出一个包含900万张图片的联合发布数据库：Open Images，其中标注了成千上万个对象类别。从它发布以来，谷歌的工程师一直在努力更新和重新整理数据集，以为计算机视觉研究领域提供有用的资源来开发新的模型。

今天，谷歌宣布开放Open Images V4，其中包含190万张图片，共计600个类别，共标记了1540万个边界框。这个数据集成为现有的带有对象位置注释的最大数据集。这些边界框大部分是由专业的注释人员手工绘制的，以确保准确性和一致性。这些图像非常多样，通常包含有几个对象的复杂场景（平均每个图像包含8个边界框）。

谷歌发起大型开放图像挑战赛

与此同时，谷歌还推出Open Image Challenge（开放图像挑战赛），这是一项新的目标检测挑战，将在2018年欧洲计算机视觉会议（ECCV 2018）上举行。Open Image Challenge遵循了PASCAL VOC、ImageNet和COCO的传统，但规模空前：

在170万张训练图片中，有1220万个有框注释，共500个类别。

比以前的检测挑战更广泛，包括诸如“fedora”和“snowman”之类的新对象。

除了对象检测这个任务之外，挑战还包括一个视觉关系检测跟踪人物，即在特定关系中检测对象的配对情况，例如“女人弹吉他”。

训练集现在已经可以使用了。一组包含10万个图像的测试集将于2018年7月1日由Kaggle发布。提交结果的截止日期是2018年9月1日。我们希望这些大型的训练集能够激发对更精密的探测模型的研究，这些模型将超过目前最先进的性能，并且500个类别将能够更精确地评估不同的探测器在哪里表现得最好。此外，有大量的图像和许多对象的注释使我们能够探索视觉关系检测，这是一个正在发展的分支领域的热门话题。

除此之外，Open Images V4还包含3010万的人工验证的图像级标签，共计19794个类别，这并不是挑战的一部分。该数据集包括550万个图像级标签，由来自世界各地的成千上万的用户在crowdsource.google.com上生成。

Open Images V4数据集

Open Images是一个由900万张图片组成的数据集，这些图像被标注为图像级标签和对象边界框。V4的训练集包含了600对象类的1460万个图像，其中共标记了174万个标记目标，这使得它成为现有的最大包含对象位置注释的数据集。这些物体的边界框大部分是由专业的注释器手工绘制的，以确保准确性和一致性。这些图像非常多样，通常包含有多个对象的复杂场景（平均每个图像有8.4个标记）。此外，数据集还带有数千个类的图像级标签。

数据组织结构

数据集被分割为一个训练集（9,011,219图像），一个验证集（41620个图像）和一个测试集（125,436张图片）。这些图像被标注了图像级标签和边界框，如下所述。

表1

表1显示了数据集的所有子集中的图像级标签的概述。所有的图像都有机器生成的图像级标签，这些标签是由类似于Google Cloud Vision API的计算机视觉模型自动生成的。这些自动生成的标签有一个很大的假正率。

此外，验证和测试集，以及部分训练集都包含经过人工验证的图像级标签。大多数验证都是由Google内部的注释者完成的。更小的部分是通过图片标签软件来完成的，如Crowdsource app, g.co/imagelabeler。这个验证过程实际上消除了假阳性（但不是传统意义上的假阴性，这种方式会导致一些标签可能在图像中丢失）。由此产生的标签在很大程度上是正确的，我们建议使用这些标签来训练计算机视觉模型。使用多个计算机视觉模型来生成样本，这样做是保证在训练时不仅仅用机器生成的标签数据，这就是为什么词汇表被显著扩展的原因，如表一所示。

总的来说，有19995个不同的类和图像级标签。请注意，这个数字略高于上表中人工验证的标签的数量。原因是在机器生成的数据集中有少量的标签并没有出现在人工验证的集合中。可训练的类是那些在V4训练集中至少有100个正例的人工验证类。基于这个定义，7186个类被认为是可训练的。

边界框

表2

表2显示了数据集的所有分割中边界框注释的概述，它包含了600个对象类。这些服务提供的范围比ILSVRC和COCO探测挑战的范围更广，包括诸如“fedora”和“snowman”之类的新对象。

对于训练集，我们在174 万的图像中标注了方框，用于可用的阳性人工标记的图像级标签。我们关注最具体的标签。例如，如果一个图像包含汽车、豪华轿车、螺丝刀，我们为豪华轿车和螺丝刀提供带注释的标注方框。对于图像中的每一个标签，我们详尽地注释了图像中的对象类的每个实例。数据集共包含1460万个的边界框。平均每个图像有8.4个标记对象。

对于验证和测试集，针对所有可用的正图像级标签，我们提供了所有对象实例详尽的边界框注释。所有的边界框都是手工绘制的。我们有意地尝试在语义层次结构中尽可能详尽地标注注释框。平均来说，在验证和测试集中，每个图像标记了5个边界框。

在所有的子集中，包括训练集、验证集和测试集中，注释器还为每个边界框标记了一组属性，例如指出该对象是否被遮挡。

类定义（Class definitions）

类别由MIDs（机器生成的id）标识，可以在Freebase或Google知识图的API中找到。每个类的简短描述都可以在类中CSV中找到。

统计和数据分析

600个可标记类的层次结构

本文来自新浪网

“数据标注”今天，那些人工智能背后“人工”正在回家

2021年12月11日 · One min read

5到10年后，当人工智能全面普及，科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。

但今天，「甲子光年」却想说一个关于人工智能“从未被讲出”的故事，写一群时代大幕后的“隐形者”——标数据的人。

智能时代滚滚巨轮之下，一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据，正是出自这些学历不高，每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。

「甲子光年」采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计，中国全职的“数据标注者”已达到10万人，兼职人群的规模则接近100万。

他们中有职高学生，有尝试过40份工作的聋哑人，有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下，数据量越大，质量越好，算法模型就表现越好。可以说，数据决定着整个人工智能行业的发展态势。

但标注工作本身是一个劳动密集型工种，收入并不高。随着技术的进一步发展，未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今，父辈手里的铁铲变成了年轻人的鼠标、键盘，但和父辈一样，他们仍是边缘者。在这个除夕，他们也像父辈一样踏上了归乡的旅途，不仅是从城市回到乡村，也是从科技前线回到古老的火炉前。

小志从贵阳坐了四小时的大巴回到山区家中，第一件事就是将钱塞到母亲手里；

犇犇给父亲买了新的电动剃须刀；

何军家在河南周口，打算把钱都存着娶媳妇，过年期间就要见几个相亲对象；

小袁想再挣点钱后换一副助听器，现在这个他已戴了好多年，把他不断长大的耳蜗磨出了新新旧旧的伤……

我们无法预判他们的命运，但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。

数据折叠

人工智能的世界里，存在不为人知的“数据折叠”：

一边是炫酷的科技、神奇的智能应用；一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据。

北京和贵阳，是数据标注世界里的两座“双子星”城市。北京聚集了大量人工智能公司；贵阳近年来着力发展“大数据战略”，已拥有相对完整的数据服务产业生态。

2017年，仅北京中关村大数据产业规模就超过700亿元；贵阳2017年的大数据产业及其关联产业规模总量超过1500亿元。AI行业的总规模也在持续增加，根据麦肯锡2017年4月发布的一份报告，到2025年，AI应用的总市场可能达到1270亿美元。

但标注数据的人，生活在这些巨额数字之外，拿着不高的工资，活动在“第二空间”。

从三里屯驱车1小时，行驶30公里，就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班，学生总数300多人，高峰时期，有120多人参与数据标注的兼职项目。

标注工作室占满了某栋教学楼二层的5个房间，150台电脑前坐着一群十八九岁的学生，正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作，最终将用于热闹炫酷的无人驾驶项目。

从做数据标注的教室窗口向外望，可以看到北邮的教一，那里有国际学院和计算机专业学生专用的机房。

兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做，人均工资约4000到5000元。而坐在教一的未来算法工程师，刚毕业时，起薪就可能达到30万元/年。

BasicFinder旗下某数据工厂

培训班学员参与的标注项目，采用了目前数据标注行业的主流模式之一——“外包”。

某数据标注主管告诉「甲子光年」，AI数据标注的外包市场2011年开启，2015年真正开始，2016年下半年出现收缩，2017年又有了新一轮的爆发。

外包盛行，是因为人工智能的发展需要大量人力对非结构的数据进行加工，以用于机器学习。而创业团队和巨头公司，为了集中精力研发或保持团队的高学历占比，很少完全自建数据标注团队。

外包江湖门派众多、良莠不齐。

从业者是这样打招呼的，“你是发包方还是外包方？”

BAT、人工智能创业公司，学术团体，以及政府、银行等机构都可能成为发包方。BAT和人工智能公司需求最大，学术团体次之，政府、银行等传统机构的需求最小但有不断增长的趋势。某数据标注主管告诉「甲子光年」，他目前所接触到的上述三类业务需求的比例为7：2：1。

某数据标注公司负责人透露，商汤、旷视这类大的人工智能公司，一年在数据上的支出有数千万。

在“外包方”一端，有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民，如“百度众包”、“京东众智”、“龙猫数据”；后者是自己经营团队，对整个流程进行控制，如贵阳梦动科技经营了一个500人的“数据工场”；BasicFinder与二十来家“数据工厂”有长期业务合作，少则几十人，多则两三百人。而在规范的机构之外，还游离着三五人到十几人规模不等的“小作坊”。

许多机构在众包和自营工厂两方面都有涉足，众包平台上也有许多以团队为单位接单的“公会”。

算法公司和人才多集中在北深杭等科技核心区域，而作为一个“劳动密集型”的中低收入行业，数据标注人员散落三四线城市。

在距离贵阳市中心50公里的百鸟河数字小镇，有一个规模500人的“数据工场”，500名标注员中，近一半是附近一家扶贫高职“盛华职业学院”的学生。

位于贵阳的“数据工场”

他们很珍惜这个接近“白领”的兼职机会，1月能挣到1500元，经济上足以自立，省点还可以补贴家用，相比其他兼职选择：去餐厅辛苦端盘子或顶着风雨送外卖，数据标注相对轻松且体面。

盛华学院大数据专业老师，同时也是贵阳梦动科技人工智能服务部总监的曹珊告诉「甲子光年」，她曾带着七个学生来北京某人工智能公司参加图像标注培训，通过后可留下来实习，但竞争激烈，五十九人只留十个，其中不少是北京本地学校的竞争者。最终，这7位来自贵阳的同学都留了下来。

这些年轻的数据标注者，一头连着最前沿的科技，一头连着他们正在回去的家乡——那里往往是贫困、闭塞的所在，是科技的影响力最微弱的“第三空间”。

小志是曹珊的学生，数据工厂腊月二十七才放假，小志坐了四小时大巴回到山区的家里，父母都务农，身体也不好，家里除了房子和田，唯一像样的财产是一头牛。

进高职前，小志甚至都没碰过电脑，唯一会的操作是按开关键。电脑极大地打开了他的世界，但也让他一度沉迷游戏。最严重的时候，课不上了，数据不标了，觉也不睡了。

曹珊为此和小志长谈了多次，目前小志的生活渐渐步入正轨，成了数据标注的小组长，手里带着十多个同学。

但未来工作前途的不可预期，相对低的收入，较大的家庭负担，仍然是这些年轻人无法摆脱的苦恼。

父辈的积累相当顽固，无论是财富、声望，还是贫穷和负担。

父辈与我：从建筑工地到“智能工地”

犇犇的人生在某种程度上，是对父亲的继承。

他是西安某数据标注工作室的标注员，犇犇和他所在的工作室代表了数据标注行业的另一种典型模式“小作坊”。

今年26岁的犇犇，先后做过厨师、进过工厂、推广过数种数字货币，但没有一份工作做得长久。

犇犇父亲在他这个年纪时，是镇上棉纺站的一名工人。2005年棉纺站关门，下岗后的父亲去甘肃当过两年钻井工人，此后一直在做建筑。

直到2017年12月初，犇犇还不知道数据标注这个工种。

当时他接到灵的一个电话，邀请他一起做数据标注工作室。灵和犇犇曾一起推广数字货币，行情最好时，一笔交易能拿两万提成。但好好的币，玩着玩着没了，他们的这次合作铩羽而归。

经历上一次失败后，灵又杀进数据标注领域，很快，她组建了15人规模的工作室，团队成员都跟犇犇一般大，氛围很好，他们常常一边标数据，一边聊天，时间并不难熬。

最难受的是眼睛。从早上九点到晚上六点，工作内容就是盯着屏幕给图片拉框。拉框要求十分精细，偏差丝毫都不行。犇犇眼睛干涩时，会起身去楼道抽烟。

犇犇所在的工作室

眼睛的难受熬熬就能过去，更愁人的是工资不高。

犇犇笑着说，入不敷出啊。他在供一套郑州的房子，每个月要还4700的房贷，而工资撑死就五六千。

在犇犇看来，这份工作也没什么前途：“跟电子厂一样，多做多得。”

犇犇的梦想是在全国开很多养老院，因为小时候的邻居是独居的七十岁老人，“没人养很可怜”。

但开养老院对现在的犇犇来说太难了，他养自己都难。

数据标注的晋升之路只有两条，每条都是窄门：

要么进数据公司，爬完标注员－标注组长－数据经理－数据总监这个链条，层层打怪升级；要么进人工智能公司当数据标注员，然后凭借超人毅力自学技术曲线救国。

前一条路不需要学历，但是千百人过独木桥，且依旧是在数据标注圈子里打转；后一条路能真正学到东西，但对学历有要求。

犇犇只有高中学历，连高考都没参加。因为不愿再读书，他跟父亲起过很大争执，父亲深知打工有多苦。高三的那个暑假，犇犇也去体验了一把：跟着父亲去工地上搬砖。

现在，他成了一名“智能工地”上的新型“搬砖者”。

对科技、社会和自身的关系，如今犇犇有清醒的认知：“人工智能就像是一个孩子，标注好的图片就像是孩子的食物，而我们就是制作食物的人，最苦最累的我们做了，成名的只是那些制造孩子的人。”犇犇说。

两代人的命运在此重叠。

农民工一砖一瓦垒起了实体城市的高楼；数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者，高楼起来了，他们仍是边缘者；后者是科技世界的边缘者，机器变聪明了，他们还是边缘者。

犇犇会最终栖居在数据标注这份工作上吗？他给的答案是不确定的，他不知道这份工作是否不出几年就被取代，也不知道自己是否就此乖乖认命。

中国有五千多万的农民工以建筑为生，到了五六十岁还在工地上忙碌。数据标注的市场才刚打开，「甲子光年」从从业者口中得知，截止2018年年初，以数据标注为生的全职标注员规模达近十万，这个数字未来会继续增长，未来将达数十万。数字标注也将成为新生代农民工的聚集地。

野蛮生长，坑与机会并存

相比聚光灯之下的人工智能科技公司，数据标注行业是个在暗处的行业，存在大量灰色地带。

作为一个劳动密集型行业，进入门槛并不高，压低“成本”、“薄利多量”，就成了许多团队的竞争手段。

许多公司招的标注员都是没有交五险一金的临时工。7、8万的启动资金，就可以在四五线小城组起一个“工作室”。

AI公司也倾向压低成本——某数据标注公司主管告诉「甲子光年」，部分人工智能公司对数据标注的重视不够，过分压低预算，把项目外包给一些不靠谱的团队；这些团队做不完、做不了，又会把任务转包给另一些小团队，或重新找到大的数据标注公司，使质量和交期都无法保证。

“低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工告诉「甲子光年」。

对小团队来说，外包直接折损了利润。

做过室内装修的何军，在2017年底投入十万积蓄作为启动成本，在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划，就是“争取接到一手项目”。

“利润其实不高”，何军一边抖着腿，一边掰着手指头细细算账，“你看啊，一个拉框平均4分钱，一个员工一天能做大约4500个，一共180块。过关率90%，再除去审核的成本，再给每个标注员每天发110元左右的工资，平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本，第二个月勉强持平。

“开年就去跑工商注册，然后一家家联系大公司，得接到一手项目，给员工的多发点工资，现在太低了。”何军说。

小团队只能接二手甚至是好几手的项目，一手项目就像江湖传说，听过没见过。

处境相似的赵聪也特别想接到一手项目。他是2017年10月入场的标注者，自己攒了三个人的团队兼职做数据标注。“我们的项目都是从小公司手里接的，连发包方的名字都不知道”，赵聪说，“利润很低”，三个人，三个月，三个项目，每人也就获得了一千块收入。

大平台也反感层层外包，因为这严重扰乱行业秩序。

“数据标注看起来门槛很低，但其实管理的门槛并不低。价格、产能、交期和质量都要兼顾。很多小团队，拿到的项目自己消化不了，最后又会找到我们。”BasicFinder的杜霖说。

而针对一些特定的复杂任务，还需要进行足够的培训，有的培训期需要1到3个月。在理解客户需求、保证数据的多样性、随机性上，许多小团队也欠缺必要的能力。

层层外包，对数据标注员的直接影响是：摊薄了收入，钱被中间环节分掉：一手的项目在谁手上，价格多高，会经历多少层级，每层有多少利润，都是谜。

还有另一个角色在搅乱这趟浑水——代理人。

代理人说白了就是拉项目跑活儿的人，关系户，是中国人情社会里长出的变量。一些小公司会高薪养代理人，以期打通关键节点。

赵聪无奈地说，“靠关系吃饭的社会”，最末端的标注者最缺这种关系资源。

杜霖认为，这个行业经历了早期的疯狂生长，最终一定会经历一番洗牌，变得更为规范化、透明化。届时质量会取代成本，成为需求方最优先考虑的变量：

“人工智能公司的本质需求是能找到靠谱团队。大家最后都会明白，背着抱着一边沉，想省的钱都省不掉，要保证质量，就是一分钱一分货。 ”

大浪淘沙，有两类机构会最终留下来：注重质量及服务的中小型数据标注公司，以及自有整套数据技术的平台。

而犇犇、何军以及赵聪都有可能被行业清洗出去。

还有5年，只有5年

经营小工作室的何军已经开始紧张了，他听说算法升级后，将不再需要大量人工标注。由于对技术动向缺乏把握，他时常处于一种对未来的不安之中。

杜霖则认为，至少在5年内，数据标注行业的增长空间还很大，数据标注的市场才刚打开，数据需求将紧随人工智能的大规模落地引来一波爆发式增长。

首先，人工智能行业本身的发展，将进一步带动数据标注行业。目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域，未来，随着AI深入更多垂直行业，新需求将不断出现。

何军告诉「甲子光年」，前些天就出现了一个他没见过的标注内容，北航的学生找上门来，要对“积云”进行标注。杜霖也跟「甲子光年」分享，他们做过一个很有意思的标注项目——标注指甲区域，因为客户要做美甲机器人。

其次，在现有的主流“有监督学习”的算法模型下，为了让算法有更高的准确率，数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一个海量数据的训练结果，如下图所示：横轴代表数据规模，纵轴代表准确率，蓝线是深度神经网络算法，绿线是传统训练方法。

可以看到，蓝线的准确率和数据规模及质量持续成正比，并没有出现趋于平滑的拐点，这说明深度学习对数据有源源不断的需求。

第三，从感知智能到认知智能的跨越，需要的数据维度会更大，这可能催生更精细的数据标注需求——如对一段对话数据的标注，不仅要知道对话内容、语义，可能还需要标注谈话者身份、情绪变化等。

杜霖告诉「甲子光年」，人工智能公司的总支出中，目前有20%-30%用于数据，现阶段大陆市场数据采集及标注的规模保守估计有五十亿。一个参考是，新三板上市公司数据堂2016年的营收达到了9680万元人民币。

京东众智平台的负责人李工对未来也很乐观，他认为，包括采集、标注、清洗等流程的数据市场未来将达上百亿。

但这一切都是基于“有监督学习”这个大前提。行业的一个变量是，如果算法从“有监督学习”升级为无监督学习、强化学习或迁移学习，数据标注需求将大大减少。

技术进步和跃升自有其规律，目前无监督学习等新算法仍然只是学界的探索，尚不能用在大规模的商业落地中。

杜霖判断，新的革新性算法，至少5年内都不会出现。Novumind创始人吴韧此前接受「甲子光年」专访时则认为，深度学习加大数据就是人工智能的“way to go”，较难出现颠覆性的其他路径。

5年，对公司来说是一个可以布局、掉头的“窗口期”。京东众智的李工告诉「甲子光年」，他们应对变化的策略是轻运营和“产品化”，着力研发加速AI落地速度的Pre-A.I.产品，并同时研发平台技术，做到“数据与流程分离架构”。数据标注本身不是他们的核心战略。

BasicFinder也有类似布局，他们希望一手对接垂直行业里的数据生产者，一手对接上游的算法模型公司，共同推进AI的行业落地。

但对数据标注者个体来说，5年后，也许就不得不面临再一次“失业”。到时，他们还能跟随时代的脚步腾挪转移吗？

烫手的小袁

小袁暂时想不到5年后那么长久的事。

作为一名换过40份工作的聋哑人，他很庆幸，终于在“数据标注”领域成了“有用的人”。

小袁是京东众智平台上“静公会”的聋哑人标注员，这个公会全部由听障人士组成。

先后在餐厅、奶粉厂打工的小袁，总是因为无法避险、难以沟通被辞退：“我是烫手的小袁，因为我是聋哑人，所以我总是会烫到身边的人，被扔出很远很远。”

相比过去的工作，数据标注的安全性更高，但也需要相互沟通。

杜霖和残疾人群体深入交流后发现，聋哑人的世界里多为名词、缺乏形容词，比如要向他们解释这根线标得不“直”，就会比较费劲。由于输入信号会被挡掉一半，所以聋哑人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培训，聋哑人要花三周或更久。

但是他们的优点是专注、较劲儿、对视觉信号敏锐，数据标注行业对他们来说是机会。

齐工是京东众智平台的培训讲师，几乎每天都去给小袁和工友讲课。齐工说，“想当把英雄，承担更多的责任。”

齐工给聋哑人培训，左一为齐工，右一为小袁

第一次，他们在工作中找到了归属感。像小袁这样的聋哑人在众智平台上还有一千多名，京东为他们成立专门的“静公会”，项目上优先照顾。全职每月有三四千收入，兼职每月有一千以上收入。

杜霖手下也有三个残疾人团队，总共约80人。杜霖和京东负责人都表示，愿意为更多残疾人提供工作机会。

在数据标注这份职业消失之前，这里是他们的家。其中的少数人，也许能通过转型为数据质检者，获得更长期的职业生涯。

杜霖将公司取名为BasicFinder, 初衷是找到人工智能世界中最本真的一层关系——数据。新生代农民工和聋哑人，投身于数据标注这份工作中，也是希望找到最本真的生活。他们的要求很朴实，用犇犇的话来讲是：有一份稳定的工作，有一个幸福的家庭。

但科技的发展，必将带来智能升级，也使整个行业更加规范化。

这有点像武士的悖论：武士存在是为了消灭敌人，但是消灭了敌人武士也就失去了存在的理由，这个意义上，他们是在消灭自己。

数据标注者的工作是帮机器更好的学习，促进人工智能行业的发展，而当行业发展到一定阶段，可能将不再需要如此众多的人工标注。

其实整个人工智能的发展历程也有点像“孤独的武士”：人类发明了机器，到头来机器很可能取代大部分人工，甚至是“发明者”本人。

但是，是武士，就必须去消灭敌人。对知识的无限追求既是人类的天赋也是人类的危险，它早已深藏于我们的基因之中，呼唤我们不断逼近未知边界。

更高的智能一定会到来，认知差距将取代财富差距成为最显著的人群划分标准——那可能是一种更无形的“折叠”。

未来，当我们真正享受智能带来的各种便捷时，历史会遗忘这些人工智能领域的“首批工人”吗？

这可能是除了技术水平之外，判断那个未来是好是坏的更重要的标准。

本文来自新浪网

人工智能未来的数据标注将会是自我标注

2021年12月11日 · One min read

2017 年 7 月，最后一届 ImageNet 挑战赛落幕。

为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛，会在 8 年后宣告终结？

毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平，每年一次突破性进展的时代也已经过去。

近日，FAIR（Facebook AI Research）的 Ross Girshick 、何恺明等大神联手，在 ImageNet-1k 图像分类数据集上取得了 85.4％的准确率，超越了目前的最好成绩，而且没有使用专门为训练深度学习标记的图像作为训练数据。

然而，这不能怪大家不努力，只怪 Facebook 实在太土豪。10 亿张带有 hashtag（类似于微博里面的话题标签）的图片，以及 336 块 GPU，敢问谁能有这种壕气？

Facebook 表示，实验的成功证明了弱监督学习也能有良好表现，当然，只要数据足够多。

话不多说，我们一起来看看 Facebook 是怎样用数据和金钱砸出这个成果的。

以下内容来自 Facebook 官方博客，人工智能头条编译：

图像识别是人工智能研究的重要领域之一，同时也是 Facebook 的一大重点关注领域。我们的研究人员和工程师希望尽最大的努力打破计算机视觉系统的边界，然后将我们的研究成功应用到现实世界的问题中。为了改进计算机视觉系统的性能，使其能够高效地识别和分类各种物体，我们需要拥有至少数十亿张图像的数据集来作为基础，而不仅仅是百万量级。

目前比较主流的模型通常是利用人工注释的单独标记的数据进行训练，然而在这种情况下，增强系统的识别能力并不是往里面“扔”更多的图片那样简单。监督学习是劳动密集型的，但是它通常能够达到最佳的效果，然而手动标记数据集的大小已经接近极限。尽管 Facebook 正在利用 5000 万幅图像对一些模型进行训练，然而在数据全部需要人工标记的前提下，将训练集扩大到数十亿张是不可能实现。

我们的研究人员和工程师想出了一个解决办法：利用大量带有“hashtag”的公共图像集来训练图像识别网络，其中最大的数据集包括 35 亿张图像以及 17000 种 hashtag。这种方法的关键是使用现有的、公开的、用户提供的 hashtag 作为标签，而不是手动对每张图片进行分类。

这种方法在我们的测试中运行十分良好。我们利用具有数十亿张图像的数据集来训练我们的计算机视觉系统，然后在 ImageNet 上获得了创纪录的高分（准确率达到了 85.4％）。除了在图像识别性能方面实现突破之外，本研究还为如何从监督学习转向弱监督学习转变提供了深刻的洞见：通过使用现有标签——在本文这种情况下指的是 hashtag——而不是专门的标签来训练 AI 模型。我们计划在不久的将来会进行开源，让整个 AI 社区受益。

▌大规模使用 hashtag

由于人们经常用 hashtag 来对照片进行标注，因此我们认为这些图片是模型训练数据的理想来源。人们在使用 hashtag 的主要目的是让其他人发现相关内容，让自己的图片更容易被找到，这种意图正好可以为我们所用。

但是 hashtag 经常涉及非可视化的概念，例如 “#tbt” 代表“throwback Thursday”；有些时候，它们的语义也含糊不清，比如 “#party”，它既可以描述一个活动，也可以描述一个背景，或者两者皆可。为了更好地识别图像，这些标签可以作为弱监督数据，而模糊的或者不相关的 hashtag 则是不相干的标签噪声，可能会混淆深度学习模型。

由于这些充满噪声的标签对我们的大规模训练工作至关重要，我们开发了新的方法：把 hashtag 当作标签来进行图像识别实验，其中包括处理每张图像的多个标签（因为用户往往不会只添加一个 hashtag），对 hashtag 同义词进行排序，以及平衡常见的 hashtag 和少见的 hashtag 的影响。

为了使标签对图像识别训练更加有用，我们团队训练了一个大型的 hashtag 预测模型。这种方法显示了出色的迁移学习结果，这意味着该模型在图像分类上的表现可以广泛适用于其他人工智能系统。

▌在规模和性能上实现突破

如果只是用一台机器的话，将需要一年多的时间才能完成模型训练，因此我们设计了一种可以将该任务分配给 336 个 GPU 的方法，从而将总训练时间缩短至数周。随着模型规模越来越大——这项研究中最大的是 ResNeXt 101-32x48d，其参数超过了 8.61 亿个——这种分布式训练变得越来越重要。此外，我们还设计了一种删除重复值（副本）的方法，以确保训练集和测试集之间没有重叠。

尽管我们希望看到图像识别的性能得到一定提升，但试验结果远超我们的预期。在 ImageNet 图像识别基准测试中（该领域最常见的基准测试），我们的最佳模型通过 10 亿张图像的训练之后（其中包含 1,500 个 hashtag）达到了 85.4％的准确率，这是迄今为止 ImageNet 基准测试中的最好成绩，比之前最先进的模型的准确度高了 2％。再考虑到卷积网络架构的影响后，我们所观察到的性能提升效果更为显著：在深度学习粒使用数十亿张带有 hashtag 的图像之后，其准确度相对提高了 22.5％。

在 COCO 目标检测挑战中，我们发现使用 hashtag 预训练可以将模型的平均精度（average precision）提高 2％以上。

这些图像识别和物体检测领域的基础改进，代表了计算机视觉又向前迈出了一步。但是除此之外，该实验也揭示了与大规模训练和噪声标签相关的挑战和机遇。

例如，尽管增加训练数据集规模的大小是值得的，但选择与特定识别任务相匹配的一组 hashtag 也同样重要。我们选择了 10 亿张图像以及 1,500 个与 ImageNet 数据集中的类相匹配的 hashtag，相比同样的图像加上 17,000 个 hashtag，前者训练出来的模型取得了更好的成绩。另一方面，对于图像类别更多更广泛的任务，使用 17,000 个主 hashtag 训练出来模型性能改进的更加明显，这表明我们应该在未来的训练中增加 hashtag 的数量。

增加训练数据量通常对图像分类模型的表现是有益，但它同样也有可能会引发新的问题，如在图像内定位物体的能力明显下降。除此之外我们还观察到，实验中最大的模型仍然没有能够充分利用 35 亿张巨大图像集的优势，这表明我们应该构建更大的模型。

▌未来的图像识别：更大规模、自我标注

本次研究的一个重要结果，甚至比在图像识别方面的广泛收益还要重要，是确认了基于 hashtag 来训练计算机视觉模型是完全可行的。虽然我们使用了一些类似融合相似的 hashtag，降低其他 hashtag 权重的基本技术，但并不需要复杂的“清洗”程序来消除标签噪声。相反，我们能够使用 hashtag 来训练我们的模型，而且只需要对训练过程进行微小的调整。当训练集的规模达到十亿级时，我们的模型对标签噪音表现出了显著的抗干扰能力，因此数据集的规模在这里显然是一个优势。

在不久的将来，我们还会设想使用 hashtag 作为计算机视觉标签的其他方法。这些方法可能包括使用人工智能来更好地理解视频片段或更改图片在 Facebook 信息流中的排名方式。hashtag 还可以帮助系统更具体地识别图像是不是属于更细致的子类别，而不仅仅是宽泛的分类。一般情况下，图片的音频字幕都是仅宽泛地注释出物种名称，如“图片中有一些鸟类栖息”，但如果我们能够让注释更加精确（例如“一只红雀栖息在糖枫树上”），就可以为视障用户提供更加准确的描述。

此外，这项研究还可以改进新产品以及现有产品中的图像识别功能带来。例如，更准确的模型可能会促进我们改进在 Facebook 上呈现 Memories（与QQ的“日迹”相似）的方式。随着训练数据集越来越大，我们需要应用弱监督学习——而且从长远来看，无监督学习会变得越来越重要。

这项研究在论文“Exploring the Limits of Weakly Supervised Pretraining”中有更详细的描述。

龙猫数据携手400万用户升级数据服务，AI企业成最大受益者

2021年12月11日 · One min read

AI自诞生之日起就给了我们无限的想象力，成为了社会普遍关注的话题。“人工智能将会快速爆发，10后50%的人类工作将被AI取代。”创新工场董事长李开复曾介绍到。对于AI创业者而言，巨头们搭建的AI生态日渐完善，存储和计算成本大幅下降，AI初创企业的难度也正在逐渐降低。据资料显示，过去两年新增加人工智能企业数超过了过去10年的总和。

深度学习带动更多行业应用

深度学习是一个划时代的技术，强大学习能力逼近任意函数的能力，在图像，视觉，语音等各种应用中得到很好的证实。利用GPU运算，在模型相当复杂，数据量特别大的情况下，依然可以达到很理想的学习速度。深度学习与大数据结合，轻易实现了各种场景任务，从而使得各个行业应用成为了可能。AI目前在应用层面主要聚焦语言识别、语义技术处理以及计算机视觉领域，其中的代表企业包括科大讯飞、地平线、旷视科技、云知声等企业。

AI需要大量数据支持

关于人工智能，有很多听上去接近神话的案例，而神话是伪科学的，毕竟展示锄头是不可以代替种地的。AI也绝对不会是一个人完成的，如果一个人完成了工智能，这个人工智能也不会有多智能。AI需要大量数据训练神经网络，通过不间断的训练才可能达到所谓的“智能”，而获得海量的数据对AI企业至关重要。龙猫数据是一家专业的AI数据服务商，在大数据服务中也有着自己的看法：“可靠”取决于优质的数据质量：对于一家无人驾驶的AI企业而言，正确的道路信息和驾驶习惯是至关重要的。如果训练神经网络有闯红灯、不避让行人的数据样本，那么这个无人驾驶产品在道路行车中则是灾难性的。优质的数据样本是保障AI产品可靠极其重要的。

“精准”取决于大量的数据样本：在图片人脸识别领域，曾经因为数据样本的原因导致机器错误的将黑人识别成了黑猩猩。其原因就是数据样本的单一和数据样本的匮乏。用1万张人脸图片供机器学习和用100万张人脸图片供机器学习，其差别是显而易见的。所以说精准的识别度需要大量的数据样本支持。

“极致”取决于定制的数据种类：随着AI技术的不断成熟，AI的应用领域也在不断延伸。而延伸所及到的领域就需要与之相匹配的数据。还拿无人驾驶举例，车道行车驾驶数据训练的车辆只能在道路行车中完成无人驾驶，如果车辆行驶到社区、村庄等非车道道路环境下车辆将无法完成自动驾驶。更多定制化数据样本训练可以让产品接近“极致”

龙猫数据

两大业务：数据采集，数据标注

两个平台：众包数据采集 App，众包数据标注 Web 平台

目前龙猫数据可以完成图像、语音、视频、文本四大类别的数据采集和数据标注工作。

龙猫数据优势

数据采集样本量大、样本分布广泛：龙猫把数据采集需求分包给平台上百万量级的众包用户，依靠他们闲暇的时间进行数据采集，可以快速搜集大量的数据样本;

数据标注有多重质量把关：数据标注的质量会直接影响AI训练的效果，龙猫的数据标注平台有标注员培训-标注员考核-标注-审核-抽审，多重把关机制确保最终产出高质量数据;对复杂的数据需求，龙猫还会通过自己管理的线下团队进行标注。

丰富的数据采集、标注经验：龙猫从2016年起开始提供AI数据采集、标注服务，长期为百度、腾讯、小米、今日头条、蔚来汽车、升哲、出门问问、猎户星空、Advance、图森、下厨房、深鉴、Remo、YI+、西井、博云、云从、Video++ 等公司提供数据服务，参与数百个项目，积累了非常丰富的数据处理经验，也在业内积攒了很好的口碑。

龙猫数据，专业的AI数据服务商

龙猫数据注重AI大数据行业发展，产品和服务的横向发展和纵向延伸都做了升级，可以最大限度的满足AI企业日益增长的定制化数据需求。龙猫数据践行行业责任和使命，携手400万用户提供AI数据服务，为AI领域不断发展提供支持。

大数据标注开启助残新模式每年可助300名残疾人就业

2021年12月11日 · One min read

当记者走进宁夏回族自治区残疾人网络就业培训基地，30多名残疾人正在导师的辅导下学习产品数据标注。据基地工作人员介绍，残疾人学员正在参加的培训是由京东事业部推出的“京东微工”数据标注项目。

　　“所谓‘数据标注’，通俗地说，就是‘人脑训练电脑’。”京东集团标注平台机构负责人刘雅告诉记者，由于数据标注具有简易操作、轻劳动力的特点，十分适合残障人士。参加数据标注的残障人士每天只需工作8小时，便可轻松获得100-200元人民币的收入。

　　据了解，此次开展的“京东微工”数据标注项目是由中国残疾人福利基金会、宁夏残联、宁夏残疾人福利基金会合作开展“集善乐业”残疾人网络就业项目之一，此项目是集互联网教育培训、定向就业为一体的残疾人精准帮扶项目。

　　宁夏残疾人福利基金会理事长刘继国告诉记者，此项目是以互联网培训、就业为重点，互联网就业为宗旨，带来了“集中+居家”扶贫助残新模式。此项目支持十四种工作内容，主要包括大数据业务的早期清洗、人工智能方向上的支持以及数据采集。

　　24岁的杨悦因右手和右脚的偏瘫，被鉴定为肢体三级残疾。屡次求职失败后，杨悦心灰意冷。2017年末，杨悦的母亲马桂英偶然得知“集善乐业”残疾人网络就业项目能帮助残疾人解决就业。抱着试一试的心态，马桂英将这个消息告诉了女儿，2018年1月，杨悦顺利通过项目的职业技能培训和考核，并被安排在京东大数据标注业务组就业。现在杨悦不仅能在家里进行工作，还能通过劳动，获得可观收入，心情也开朗了许多！

　　据中国残疾人福利基金会秘书长助理刘亚衡介绍，目前实测宁夏培训基地日处理相似性数据已达到35000条以上，基地数据标注的质量合格率从项目实施最初的80%上升至94.13%，已达到审核水平。

　　截至目前，宁夏已有近百名残疾人在京东大数据标注平台上实现网络就业，在平台就业的残疾人最高月收入可达5000元。今年宁夏还将向全区22个县市区推广此次扶贫助残新模式，努力帮助更多残疾人走上工作岗位，体验生命价值。