揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  李根 发自 厦门 
  量子位 报道 公众号 QbitAI

  “令人震惊的是,在打假这方面,美国竟然远远落后!”一个月前,美国司法委员会副主席、共和党参议员道格·柯林斯痛陈美国被假货所困的问题,其话言犹在耳,近日阿里打假技术又拿下国内高规格的技术大奖。

  8 月 9 日,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”在厦门召开,经过层层评选,阿里巴巴知产保护科技大脑被三部委评为“人工智能创新之星” 。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  知识产权保护所指,更喜闻乐见的叫法就是打假。而阿里的知产保护科技大脑是一套阿里 20 年间积累的海量线上线下假货特征库、打假经验聚合而成的算法技术系统,独创“安全 AI”大脑是核心。

  这套系统 24 小时自动运转,96% 的疑似侵权链接在发布的那一刹那就已被秒杀。在过去 3 年,阿里已使用这套技术协助全国 31 个省份、227 个区县的警方抓获制售假嫌疑人 4439 人,捣毁制售假窝点 4289 个。

  从美国议员点赞到国内技术大奖,可以说时节已至,阿里打假正进入爆发性收获阶段。量子位也了解到这背后的安全 AI 运作之力、创新之功,接下来为大家一一揭秘。

  1 AI 大脑=5 万人类

  知产保护科技大脑,就是诚心和技术创新的集大成产品。

  该“大脑”完全由阿里自主研发,已经被广泛应用于阿里生态内外,对假货、山寨、侵权盗版等进行侦测和打击。

  而且作为一支上岗 AI,各方面实力,不仅比人类干得好,而且很多能力人类干不了。

  阿里方面公布了一系列惊人数据表现:

  如果人工查看 1 张图片的信息需要 10 秒钟,那么 5 万人同时工作的效率才能勉强赶上“知产保护科技大脑”扫描甄别图片的速度。淘宝天猫平台每日新发商品量以千万计,如果人工巡查,138889 人工作 1 天才能把这项工作完成。

  阿里安全图灵实验室负责人薛晖透露,这套系统的样本数据总量相当于 186 个中国国家图书馆藏量,仅累积的打假图片样本量就超过 137 亿张,用 0.3 毫米的标准相纸打印叠加后高达 4110 千米,是世界最高建筑迪拜塔的 4964 倍,约等于 464 个珠穆朗玛峰。

  惊人的效果背后是阿里在安全场景里不断进化技术力量所锻造的“安全 AI”风控体系。

  安全 AI 如何服务知识产权保护?

  所谓安全 AI,是指安全场景中进化出的 AI,拥有更强、更多元化的能力;与当前通用 AI 的理念不同,阿里安全更注重在业务安全领域垂直纵深的技术积淀,开发出适应更多安全场景的新一代 AI,让传统的安全问题找到新的 AI 解法。阿里在今年年初提出这一全新理念,称其将成为未来网络安全问题的核心解法。

  据悉,阿里知产科技大脑的秘密在于四大智能核心引擎,涵盖阿里上百项自主研发的安全 AI 技术。分而解之,涉及感知引擎、认知引擎、决策引擎和计算引擎。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  实际也是通用人工智能(AGI)必不可少的四大引擎,只是阿里垂直为打假服务。

  从项目申报说明里,也能寻得宏观架构脉络。

  感知引擎:核心技术是计算机视觉技术及语音识别技术,是整个系统的感官系统,是对象识别的基础,为形成后续一系列处理动作迈出第一步。

  包括,用于开店身份认证环节的人脸识别、声纹识别、活体检测等生物识别技术;用于开店资质核验环节的证件识别、篡改检测技术;用于线上商品识别的商标检测、物体检测、光学字符识别技术;用于营销环节检测的广告图片分析和视频直播监测技术,以及用于原创作品保护的多媒体检索和图像水印技术等。

  正是“感官系统”精准的语音、图像、音频、视频感知能力,整个系统才能在数亿复杂数据中准确识别出需要保护和防御的对象,进行下一步处理。

  认知引擎:核心技术是自然语言处理技术。

  认知引擎是系统的“翻译官”,让机器懂得文字的意思、人类声音的含义,以及人们动作的性质,从而判断善意\恶意、危险\安全。

  具体包括针对海量商品结构化与非结构化数据构建的知识图谱技术;面向海外电商的多语言分析和机器翻译技术,针对外部反馈的评价、舆情进行识别的语义分析技术;以及融合多模态信息,对商品的全面认知和理解的技术。

  第三,决策引擎:核心技术包括深度学习和强化学习两块,用来解决现实中的复杂决策问题。

  它是系统的“军师”,决定了系统该如何动作,如何更合理有效地作出最佳应对。例如当面临商家实时博弈、信息内容的变异,以及黑产的恶意攻击时,在全局视角下做出更有利的决策。

  最后还有计算引擎,包括实时指标计算系统、分布式异构计算系统、和大规模图神经网络系统。

  这是打假 AI 大脑的发动机,它强大的性能保证了系统在数千并发、数十亿数据面前坦然自若、精准高效。

  计算引擎背后,支撑的是阿里云机器学习平台 – PAI 3.0。

  它可以实现单任务支持上千 worker 并发训练,并支持 5k+ 超大规模异构计算集群,保证全天候监控数十亿商品异常情况,以及对经营者行为的全方位监督。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  台上一分钟,技术 20 年功

  值得一提的是,四大引擎架构宏观,但背后每一项技术积累,都是工程师们日夜苦功的结果。

  值得一提的是,打假 AI 大脑是阿里安全“安全 AI”落地应用场景之一。阿里在高风险、强对抗的场景中不断进化 AI 的力量,通过小样本学习、多模态、自监督学习等新技术的持续应用,在内容安全、新零售安全、交易安全等百余场景中持续应用,其凝聚着阿里安全图灵实验室在 AI 领域超过 10 年的技术积淀,实现水滴石穿。

  从最近阿里安全图灵实验室在人工智能顶会的论文中,不难发现其功力所在。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  这是阿里发表于 ECCV Workshop 2018 的论文,核心分享了其在视频分析领域的技术进展。

  也是阿里从视频中识假打假,保护原创的秘诀所在。

  当前业内通行的视频分析,往往先预训练 CNN 网络提取特征分类,其后采用循环神经网络(RNN、LSTM)进行序列建模。

  但视频的特征序列一般较长,且含有多级结构(hierarchical data structure),即一个视频包含帧、镜头、场景、事件等。

  而且帧与帧、镜头与镜头间的关系十分复杂,不仅仅是前后帧的顺序关系,通过一般的序列建模方法,RNN 无法表达如此复杂的关系,建模效果较差。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  因此阿里研究团队通过深度卷积图神经网络(DCGN)对视频的帧、镜头、事件进行多级的建模,逐渐地从帧级、镜头级,一直到视频级进行抽象,从而获得视频全局的表达,进而进行分类:

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  最后方法在 youtube8m 数据集上验证后,效果相对其他经典的序列建模方法,都有提升。

  论文传送门:https://arxiv.org/abs/1906.00377

  还有自然语言处理领域的进展,同样是知产保护科技大脑的关键技术。

  阿里安全图灵实验室入选 IJCAI 2019 的文章,主题是面向对象的情感分析,主要目标是挖掘出评论对象,同时判断情感表达的极性。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  一般而言,很多对于商品质量描述的蛛丝马迹,会隐藏在用户对商品的评论中,却很难从商品本身中发现问题,这也是 NLP 技术能够施展拳脚的场景。

  论文中提出的方法,通俗来说是利用全局信息、结合上下文语境去识别情感对象,而不再是预测每个字对应的序列标签。

  这种方法基于词块方法,提出更简单高效的联合模型,同时抽取情感表达对象以及判断其情感极性。

  具体步骤上,首先对评论语句中的所有候选词块进行向量表示,然后提出了一种基于词块的注意力机制来预测词块对应的标签和极性。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  最后公开数据集评测对比后,证明比现有方法表现更好。

  另一项体现场景挑战和技术水平的是安全场景特有的对抗性问题。

  售假卖家往往会通过改变“标题”和“描述”以躲避传统规则和模型的识别,但这并非完全无迹可寻。

  混淆语言是一种被用于在对抗交流场景下实现规避检测的技术手段。

  对抗交流场景包括敏感信息传播、负面情感表达、秘密行动策划以及违法交易等。混淆语言的实现方式通常是在原始文本里进行变异词的替换。

  监管机构在识别此类文本时,需要根据一组关键词进行扫描过滤。尽管引入了一些语义扩展技术,但是由于文本中的歧义性以及变异的无边界,导致识别此类文本的准确率和召回率都十分有限。

  阿里在 WWW 2019 上发表的论文,集中披露了该方向上的核心进展。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  该论文的主要思路是将混淆语言识别转化为一个文本匹配任务,即每条待检测信息,是否匹配一个扫描关键词,并且同时整合了文本信息的文本表示和视觉表示。

  这里的视觉表示指的是文字自身的视觉效果,而不是信息中的图片,主要是因为在进行文本变异混淆时,经常会出用一些看起来像的字符进行替换,这种变异导致了混淆后的内容在语义上可能已经跟原始内容没有任何关联,但是从视觉效果上却可以产生联系。

  阿里的模型利用 BiLSTM 对文本特征进行表示,通过基于模板匹配的方式对视觉特征进行表示,通过多模态的整合,可以比传统方法表现出更高的准确率和召回率。

  另外就是结合图像视频和自然语言处理的多模态任务解决方法。

  论文发表于 ICASSP 2019,其中列举的任务也颇有意思:通过一段文本描述,自动地编辑源图像使其符合给出的文本描述,从而简化图像编辑流程,是一种基于文本的图像编辑方法。电商网站中的商品本身就是文字与图片的混合内容,因此可以期待这项技术可以加强对商品内涵的理解,更有助于发现假、劣商品。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  感兴趣的盆友可移步传送门:http://arxiv.org/abs/1903.07499

  最后再介绍一项业内 sexy,且对打假 AI 贡献不小的技术进展:小样本学习

  假货问题(安全问题)中最头疼的点,莫过于对新出现的风险缺乏足够训练的样本,导致诸多优秀机器学习算法望而却步。

  在 CVPR 2018 上,阿里安全图灵实验室团队,围绕业内前沿的“零样本视频检索”挑战,给出解决方案。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  视频检索,通常要在文本和视频之间提取跨模态相关性,需要基于内容匹配。

  但阿里的方法之不同,在于提出了一种内容无关的方法,通过双重深度编码网络来将视频和文本编码为各自模态的密集式表征。

  并且双重编码概念简单、切实有效,还可以端到端学习。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  在三个基准数据集 MSR-VTT、TRECVID2016、2017 上实验后,证明阿里提出的零样本视频检索方法已达到目前最佳。

  论文传送门:http://arxiv.org/abs/1809.06181

  就在最近的机器学习顶会 IJCAI-2019 上,阿里安全成功举办了第一届 AAAC 竞赛(Alibaba Adversarial AI Challenge)以及 AIBS 研讨会(Artificial Intelligence for Business Security),旨在探索面临对抗攻击时,如何解决 AI 模型的安全性问题。竞赛和会议吸引了来自 24 个国家和地区的 2000 多支队伍参与,过程中涌现出不少新思路和新方法,极大地推动了这一领域的发展。

  “AI 发展趋势是一定的,但 AI 应用来解决安全问题时并不能生搬硬套,需要根据实际场景进行 AI 的技术升级,”薛晖在今年年初的公开采访中就指出,安全会成为未来 AI 开发的最大挑战, “安全 AI”会成为未来网络安全问题的新解法,也将在 2019 年迎来爆发期。

  如今阿里“知产保护科技大脑”的成功实践不断得到行业乃至全球的认可,正印证了这一断言。

  阿里打假 AI,用技术解决社会问题

  打假 AI 大脑成功,幕后原因并不难分析。这也会是阿里各项业务在 AI 时代里还会更繁荣的保证。

揭秘阿里打假AI大脑:数据总量186个国家图书馆-编程之家

  打假作为综合因素导致的社会问题,利用 AI 等技术实现其实并非易事,没有对比,可能就难看出诚心诚意。

  比如美国电商巨头亚马逊,其实也在今年新推出一项名为“Project Zero”的打假防伪项目,通过与品牌方合作,打击消除假货。

  但在具体技术机制上,就目前披露情况而言,相较阿里的打假 AI 大脑,技术上稍逊一筹。

  因为亚马逊的打假 AI,还需要合作品牌提供 logo、商标和其他信息,甚至让品牌方利用工具标记并禁止仿冒品。

  仍更多依赖监督学习的方式,自动化程度和 AI 通用能力还相对不足,对于阿里无监督、小数据学习和系统性大脑,技术能力和挑战,高下立判。

  所以也难怪美国众议院司法委员会副主席道格·柯林斯在调研了亚马逊、eBay、阿里在内的电商平台后,给出评价:“阿里巴巴的打假政策和项目比任何美国同行都有效得多。”

  阿里之道の一以贯之

  最后,阿里的做事方式,依然值得关注。

  宏观层面来看,知产保护科技大脑,依然是又一次阿里式创新的成功。

  打假难题,源头在社会发展阶段和人性劣根处。面临的挑战,跟电商、支付、物流、计算和自主芯片,本质相同,困难无差。

  但阿里之道一以贯之,为打假而生的 AI 大脑系统,依然是淘宝天猫、支付宝、阿里云,菜鸟和平头哥模式的延续:

  技术驱动,打造系统平台,从根本上解决问题。而且侠之大者,未来也会兼济天下,赋能各行各业甚至各国,能力所至,皆受其益。

  会有那么一天,天下再无假货吗?梦想或许还是可以有的。

  毕竟 AI can do,Ali is doing……