只要上网冲过浪的人,基本上就没有不知道验证码这玩意的。这些年来,验证码的形式也被玩得越来越花。有不少的网友吐槽,没有一些知识储备,连验证码都要看不懂了。
差评君的验证码成绩也并不理想,特别是在遇到滑动式验证码这种细致活儿时,就经常因为手抖而前功尽弃。
还有这种高数答题式验证码,没有点数学知识积累的用户,基本上就只能行法式军礼就地放弃抵抗了。
面对这些验证码的时候,不知道差友们有没有想过,这种明显让用户体验不佳的东西,到底有啥存在的意义呢?
其实啊,验证码的用处可以用简单的一句来解释清楚:区分计算机和真正的人。而这一切要从验证码的历史讲起。验证码英文叫做 “ CAPTCHA ”,这七个大写的字母是 “ Completely Automated Public Turing test to tell Computers and Humans Apart ” 这个超长词组的缩写,直译就是 “ 全自动区分计算机和人类的图灵测试 ”。
而图灵测试是人工智能圈一个著名的实验,实验者询问一台机器和一个人类一些问题,如果实验者无法分辨他俩的差别,那么这台机器便通过的图灵测试。
验证码就是这个图灵测试的反向和变种,用来区分计算机和人类。在 2000 年初,互联网的浪潮刚刚在全世界掀起,当时最让大伙苦恼的一件事就是垃圾邮件太多了。甚至有一群家伙还特意制作了程序,可以终日无休地大量注册新邮箱账号,然后用来发送垃圾推广邮件。公司封号删除的速度远远赶不上他们注册的速度,用户邮箱中的重要邮件也常常被一大波的垃圾邮件所淹没。
互联网公司和用户都深受其苦。一位名叫 Luis 的天才程序员就想到了法子,他发现计算机程序很难认清手写的文本,而人类可以轻松地看懂。可以在注册账号的时候设一道门槛,必须输入 “ 歪曲 ” 的文本才能完成注册,用来识别计算机和真人。
验证码从此孕育而生,无数的黄牛、垃圾邮件、还有爬虫程序就这样被验证码挡在了外面。如今,国内外就有许多公司专门为网站提供验证码服务,例如为 12306 提供验证码的微触科技、为斗鱼和 B 站提供服务的极验科技,甚至身为互联网巨头的谷歌,也同时是世界最大的验证码服务提供商。
随着计算机的识别技术越来强,验证码也变得越来越 ” 扭曲 “,验证码的形式和花样也越来越多。到目前为止,输验证码还是区别人和计算机最有效率的方法。
但也有网友做过计算,全世界的网民一天共要输入的近 2 亿次验证码,每次输入按花费十秒计算,那么人类每天花在验证码上的时间已经超过了 50 万小时。。。或许有差友会脱口而出:浪费时间就是浪费生命!验证码浪费了人类大量的生命!
球都嘛得,说起来你可能不信,实际上输入验证码的时间并没有全被浪费,反而每一次输入验证码,你都可能是在为人类的文化事业,或者是为人工智能贡献着一份力。
还是那个发明了验证码的天才 Luis,他发现许多公益组织在把旧书籍扫描成电子版,对计算机来说,那些斑驳的文字太难识别了。
书籍的内容大部分是文本、验证码也是文本,把扫描版的书籍文本对接到验证码上,让用户来识别不就行了?于是乎一个叫做 reCAPTCHA 的新式验证码系统诞生了。reCAPTCHA 会提供两个单词给用户来识别。这两个单词都是书籍扫描版的一部分。
计算机其实已经知道第一个单词是啥了,之所以要展示出来,就是为了测试一下你是不是真人。不过第二个单词计算机暂时还没能力认出来。面对这第二个单词,一旦有 10 个人输入了同样的答案,那么这答案就会被当作是正确答案。靠这种方法,reCAPTCHA 每年能成功数字化 230 多万本旧书。仔细看 reCAPTCHA 验证码的右下角,你还能看到正能量满满的话语:Stop spam.Read books.
别发垃圾邮件了,去读些书吧!
除此之外,你输的验证码,还可能成为了人工智能训练的养料。大伙们肯定遇到过这类街景验证码,让我们选中小轿车、路牌或是自行车等等图片。在你费眼又费脑地输入它们的时候,你其实是在为谷歌的人工智能免费打工。
因为这些图片大都来自于谷歌街景,其中的一部分图片是 AI 已经识别出来的,用于来识别你是否是真人。和之前的书籍电子化一样的套路,其中还夹杂了几张 AI 难以识别的街景,用来白嫖你的劳动力。而这些数据,最后会被用于培训人工智能。
对于这种空手套白狼的行为,谷歌官方也不藏着掖着,就直接叫告诉大家:你们的免费劳动力,我拿走了!
在各位的 “ 辛勤喂养 ” 之下,运用了谷歌 AI 技术的无人驾驶汽车 Waymo,已经在自动驾驶领域处于遥遥领先的地位,被称作是世界上最可能最先到 L5 级别( 完全自动驾驶 )的公司。。。
如今,收购了 reCAPCHA 的谷歌已经把大部分验证码都升级成了 reCAPCHA v3。用户只要点击一下 “ 我不是机器人 ” 的按钮,就能轻松通过验证。但即使是你鼠标的这么轻轻一点,验证码还是能从你身上吸点油水。
因为在你点击按钮的同时,谷歌会监控你的用户行为。鼠标的运动轨迹甚至是你打开的网页都可能被收集,这些数据会被用来判断你是否是真人,并且帮助验证码系统进化。而且目前国外有超过 65 万个网站用 reCAPCHA v3,每点击一次验证按钮,就等于打卡告诉谷歌你来过这儿,谷歌就会根据你去过的网站来给你推送定制的广告。。。
而点击验证码的用户,只不过是在无偿地为谷歌提供数据罢了。。。
随着 OCR ( 光学字符识别 )技术和 AI 的发展,验证码也在不断被破解中,过去简单扭曲一下的字母,可挡不住现在的程序了。但无论验证码怎么进化,只要你是真真切切的人,验证码这关都不可能真正挡住你。就像 reCAPCHA 一直所倡导的那样:Tough on bots,Easy on humans ( 对机器人困难,对人类简单 )。
而你每一次输入验证码,都可能是在为人类文明添砖加瓦,或是在为人工智能的发展贡献着一份力。
这么一想,是不是感觉自己的键鼠都在散发着无私的荣光呢?
图片、资料来源:
36 氪,《 41 岁的天才数学教授,创造了 “ 验证码 ” 和 “ 多邻国 ” ,身家 7 亿美元 》维基百科, reCAPCHA
搜狐科技,《 你以为自己在填验证码,其实你是在给 Google 义务劳动 》