重看「新必应」发布会:盘点新必应的演示失误

原文标题:《重看「新必应」发布会:比 Bard 错得更离谱,谷歌直呼有黑幕!》

新必应比 Bard 强?演示视频也有错误,给的参考源也完全不对。

谷歌的 Bard 因为在演示中答错了一个问题,导致股价开盘暴跌 8%,市值蒸发 1020 亿美元。

反观微软 Bing 由于提前搭上 ChatGPT 这趟快车,尽管在事实问题上的回答也是一塌糊涂,但结果却是股价暴涨超 800 亿美元。(谷歌直呼有黑幕)

难道说微软做 ppt 的水平比谷歌高?

实际上,在 2 月 8 日新必应的发布会上,微软同样也犯了许多错误,只不过宽容的看客老爷们光顾着见证「搜索引擎的新时代」了,没有深究新必应。

下面一起拿着放大镜,看看微软副总裁 Yusuf Mehdi 在发布会上演示的新必应到底错在哪了。

捏造产品的缺点?

第一个演示错误发生在展示「最畅销的三台宠物吸尘器各自都有什么优缺点?」(What are the pros and cons of the top 3 selling pet vacuums?)

根据右半部分生成的利弊列表,必胜牌宠物毛发橡皮擦手持吸尘器(Bissell Pet Hair Eraser Handheld Vacuum)看起来相当糟糕,有限的吸力、电线很短,而且噪音大到足以吓到宠物。

看了 ChatGPT 的回答,消费者肯定会怀疑,这种东西到底是怎么成为畅销品的?

但进一步检查后可以发现,这些结果完全是新必应瞎编的!

根据给出的参考来源,用户可以在「家庭和花园电视」(HGTV)上的一篇导购文章找到相关吸尘器的评价结果。

文章链接:https://www.hgtv.com/ shopping / product-reviews / best-vacuums-for-pets

仔细看了一遍后可以发现,引用的文章里并没有提到「有限的吸力」或「噪音」问题,甚至在亚马逊平台提供的产品评论中,还有用户提到它的优势就是「安静」。

文章中同样也没有提到「16 英尺的电线」太短的问题,因为这款吸尘器根本就没有电线,它是一款便携式的手持吸尘器!

用户如果只看 ChatGPT 返回的结果,肯定就不会选择这款吸尘器了,不知道新必应的 AI 会不会被必胜控诉诽谤。

墨西哥的夜生活:导航到同志酒吧

演示中先向新必应询问了墨西哥城的旅行路线后,新必应为用户制定了 5 天的墨西哥城行程。

再搜索「哪有夜生活」(Where is the night life?),必应推荐了一些适合夜晚娱乐的场所。

首先,Cecconi 酒吧「也许」如新必应所说是「时髦的」(classy),但在网上根本搜不到,无法预订或查看菜单。

Primer Nivel 夜总会也是个谜,在 TripAdvisor 平台上有一条 2014 年的评论,而最新的 Facebook 评论是 2016 年的,在 TikTok 上甚至都没有搜索结果。

不知道必应到底是怎么得出「在年轻人中很受欢迎」(popular among the young crowd)这个结论的,感觉关于 Primer Nivel 夜总会的所有细节都是人工智能幻觉(AI hallucinations)。

另一个推荐 El Almacen,新必应的评价是「乡村的或迷人的」(rustic or charming),但 Bing AI 忽略了一个非常相关的事实,这是一个同性恋酒吧,并不适合推荐给没有指定需求的普通用户。

El Almacen 在谷歌上有超过 500 条评论,不过在必应返回的搜索结果中显示「还没有评级或评论」(no ratings or reviews yet),不过也许谷歌限制了必应获取的信息源。

El Marra 也是一个同志酒吧,必应的评价是「充满活力且多彩的」(vibrant and colorful),网上对这个地方的评论非常多,不过回答中依然表示「还没有评级或评论」。

Guadalajara de Noche 看起来描述还比较准确。

财务报表:数字全部错误

最后一个演示是要求新必应对当前页面(GAP 的财务报表)进行总结,对于 AI 来说这个任务相当简单,不过从结果来看,回答中引用的数字几乎全都错了。

第一条「Gap 公司报告净销售额为 40.4 亿美元,比去年增长 2% ,可比销售额同比增长 1%」是完全正确的,可能是从财务文件中直接抄过来的。

第二条「Gap 公司的毛利率为 37.4% ,经 Yeezy Gap 相关减损费用调整后,由于贴现率上升和大宗商品价格通胀上涨,商品毛利率比去年下降了 370 个基点」开始出现错误。

回答中说的是「未经调整的毛利」(unadjusted gross margin),经减值费用调整后的毛利率为 38.7% ,如果扣除减值费用,商品利润率下降了 480 个基点。更糟糕的是第三条,「经减值费用和重组成本调整后,Gap 公司的营业利润率为 5.9% ;经减值费用、重组成本和税收影响调整后,稀释后每股收益为 0.42 美元」

其中 5.9% 既不是调整后的数值,也不是未经调整的数值,这个数字甚至没有在文档中出现过,完全是必应瞎编的,包括减值在内的营业利润率为 4.6% ,不包括减值在内的营业利润率为 3.9%

稀释后的每股收益也是一个完全编造的数字,没有出现在文件中,调整后每股摊薄收益为 0.71 美元,未调整为 0.77 美元。

回答的最后中「Gap 公司重申了其 2022 财年的指导方针,预计净销售额将以两位数的速度增长,营业利润率约为 7% ,稀释后的每股收益为 1.60 美元至 1.75 美元」也是错的,他们预计净销售额的增长率将下降到个位数左右。

演示中还把 Gap 和 Lululemon 在 2022 年第三季度的财务报告进行了比较,不过表格里的数字都是必应编出来的。

表格中 Lululemon 的毛利率「58.7%」是错的,实际在引用的财务文件中并没有出现,实际值为 55.9%;营业利润率是 19% ,而非 20.7% ;稀释后的每股收益为 2.00 美元,而非 1.65 美元;现金和现金等价物方面,Gap 是错误的(应该是 6.79 亿美元),但 Luluemon 是正确的;Gap 的库存是错误的(应该是 30.4 亿美元),但 Luluemon 是正确的。

其他错误

除了官方演示中的错误,随着新必应的逐渐开放,也有用户反馈了他们在体验过程中遇到的问题。

必应知道今天是 2023 年 2 月 12 日,不过却认为 2022 年 12 月 16 日发售的「阿凡达 2 水之道」还没有上映。

询问必应「Google AI bot」败在哪了?

给出的答案是,2023 年 2 月 8 日演示时,Bard 被问到「欧盟有多少个国家」,Bard 反馈说是 27 个,实际上应该是 26 个,克罗地亚在 2022 年退出欧盟了。

实际上 Bard 回答错误的问题是「我能告诉我 9 岁的孩子从詹姆斯・韦伯空间望远镜中有什么新发现吗?」,而且克罗地亚也没有退出欧盟,甚至于 2023 年 1 月 1 日成为欧元区第 20 个成员国和第 27 个加入申根地区的国家。

结论

新必应 + ChatGPT 在媒体宣传方面很强,但实际的产品并不比谷歌的 Bard 好多少,至少就目前展示的效果来看是这样的。

不过让人感到惊讶的是,必应团队创建了这个预先录制的演示,充满了不准确的信息,并自信地向全世界展示,好像 ChatGPT 全知全能。

更让人震惊的是,这个把戏居然奏效了,几乎所有人都上当了。

Bing AI 无法从文档中提取准确的数字,即使声称有来源,它也能自信地编造信息。

新必应肯定还没有准备好就发布了,想要准确信息的话,最好还是别用新必应了。

参考资料:

  • https://dkb.blog/p/bing-ai-cant-be-trusted

本文来自微信公众号:新智元 (ID:AI_era)

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注