AI助纣为虐 内容农场卷土重来

TechWeb 文/席安如

 

万物皆有鄙视链。

据说在有些互联网公司面试的时候,面试官都喜欢问候选人一个问题,“你平时活跃在哪个技术社区”?如果答案是GitHub或者StackOverflow,那就是一个加分项;如果答案是CSDN,那么很可能成为减分项,甚至是不被录用的判断依据之一。

CSDN是中国最大的程序员社区。在其2023年发布的新闻稿中,它声称自己“拥有超过4500万注册用户”和“6000多万篇文章”。

让CSDN在一些面试官眼中成为减分项的关键,正是来自这6000多万篇文章——它们构成了中文互联网上极为庞大的内容农场之一,更关键的是,它带了一个很不好的头,稀土掘金、简书等内容平台也开始主动或被动效仿。

电影院里,一旦前排的人站起来了,后面的观众就不得不跟着站起来,才能看得见屏幕。

CSDN就是那个第一个站起来的。

第一代内容农场:自己做内容,外面找流量

内容农场并非新生事物,而是伴随着搜索引擎的发展而出现的“寄生物”。

早在2009年,美国一家名叫Demand Media的内容农场公司老板就对《连线》杂志(Wired)放出豪言,声称要“每个月产出100万篇文章,相当于每年制造四个维基百科”。第二年,也就是2010年,雅虎斥资9000万美元(约合人民币6亿)收购了另一家同类公司 Associated Content。

要知道,同年美团刚从红杉拿到了1200万美元的A轮融资,而当时如日中天的百度2009年的营收也不足45亿元人民币。内容农场受“资本家”的青睐程度由此可见一斑。

原因非常简单,内容农场同时满足了“开源”和“节流”的需求。一方面,从搜索引擎带来的滚滚流量,为这些网站产生了不少的广告收入,这也是互联网公司最主要的收入来源之一;另一方面,据说当时内容农场为每篇文章开出的稿费仅为3.5美元,远低于付给人工撰写稿件的20美元左右的稿费标准。

与这些美国公司不同的是,CSDN成为内容农场或许并非有意为之,而是历史发展之巧合。

海量内容只是内容农场成功的必要条件之一,基本上花钱和堆人头就能办到,但是另一个必要条件——获取流量的门槛就要高许多。在那个年代,人们搜索互联网上的内容主要依赖的还是搜索引擎。通过技术手段,让搜索引擎抓取到页面,并且将它尽量排到搜索结果列表的前面,这个技术叫做“搜索引擎优化”,简称为SEO。

作为一个技术社区,CSDN的SEO技术显然是足够强的。至于内容的来源,它并没有像美国人那样发稿费雇人来写。当时,很多国内的技术牛人喜欢在CSDN博客上发布文章来分享经验和技术,这些文章增加了CSDN的权重;与此同时,越来越多的后来者和新手也开通了CSDN博客,但是他们更习惯将它作为学习笔记来使用,于是产生了大量的内容类似甚至完全相同的文章。

当文章数量达到某个级别并突破阈值后,搜索引擎终于被攻占了。

十几年来,搜索引擎对内容农场的态度基本上是持否定的,毕竟类似上图这样的搜索结果非常影响用户体验。不过从实际情况来看,自从2010年百度最大的竞争对手退出中国市场之后,稳坐国内搜索引擎头把交椅的百度,并没有从根本上——也就是从技术和规则上去解决这个问题,相反的,一大批类似的网站如雨后春笋般出现。

现在,你在百度搜索技术问题的话,除了CSDN之外,首屏出现的大概率还会有博客园、稀土掘金、简书……以及耳熟能详的那几家云计算厂商的“技术社区”,他们将大量过期的、重复的技术文档复制来复制去,一边浪费着自己的服务器和带宽,一边浪费着用户的时间。

面对这个局面,大部分程序员还是选择了接受,否则CSDN也不会有4500万用户了。

第二代内容农场:搬别人的内容,养自己的流量

当智能手机开始普及,手机流量开始管饱,人们使用互联网的方式变了。买东西会在电商APP中搜索,看视频会在视频APP中搜索,看小说会在阅读APP中搜索……浏览器和搜索引擎不再成为必经之路。

那些新入行的程序员们,也不再是看着CSDN们的博客学习,B站成了它们的新欢。虽然依然有很多程序员在把博客当笔记,但是从搜索到的内容来看,明显是比之前少了。

在这种流量池各自为政的情况之下,新的内容农场出现了。不过这一次,他们不再自己生产内容,而是通过技术手段,将别人创作的内容进行二次加工来产生大量内容,然后再以此获得更多的平台推荐。到了短视频全面普及之后,这种迹象更加明显。

与前一个时代不同的是,这种形式的内容农场,不但更容易得到平台的支持,用户对之也更容易接受,因为省去了自己搜索的麻烦。所以,除了部分原创作者的吐槽之外,倒是鲜见有用户对此有怨言。

AIGC时代:自己编内容,自己有流量

OpenAI一声炮响,拉着全球网民进入了AIGC新时代。

前面说过,形成内容农场有两个必要条件:一是内容,二是流量。到了AIGC时代,一分钟内可以生成数篇内容类似但又不完全相同的文章,内容的数量和质量都远超之前。这些AI生成的内容迅速出现在微信公众号、小红书、知乎之类的内容平台,不过此时仍然处于上一个时代的范畴,AI只负责生产内容。

直到今年五月,有用户在使用字节跳动旗下对话式AI产品“豆包”时发现,其答案的参考来源竟然来自豆包自身生成的内容,至此,AI时代的内容农场初具雏形。

也就是说,如果你日常将对话式AI当作与互联网交互的入口的话,那么看到的答案完全有可能也是来自AI自身,而这些AI生成的答案中,本身又可能存在不准确甚至荒谬之处,比如之前广为流传的“小帅与小美”(很多电影解说短视频给男女主角取的名字)就曾被AI当作参考答案。

虽然此次“事故”被迅速修复,但是几乎所有对话式AI都具备这个能力,而且此次被用户发现,是因为“豆包”使用自有的域名(doubao.com)来生成静态页面,如果使用的是一个看起来和字节跳动没有任何关系的域名的话,那么很可能永远都不会被用户发现。

立法层面,目前的相关的法律法规主要针对的是“有害内容”,对于这种低质但无害的内容并没有明确约束,所以似乎只能靠厂商的自我约束了。

厂商的确在行动,不过这些行动更多的是在“交互入口”处建立壁垒。比如百度的搜索引擎,将自己的AI“文心一言”生成的答案排在了最上面,这属于“用魔法打败魔法”;知乎的AI“知乎直答”也是给自己的数据更高权重。

唯一值得庆幸的是,当下对话式AI还没有成为人们与互联网交互的主流,人们还有时间来完善这个体系,避免AI内容农场的大规模出现。

我们可以怎么办?

第一代内容农场时代,程序员们尚且可以通过各种技术手段——比如使用浏览器插件uBlacklist在搜索结果中排除指定的网站——来规避内容农场出现在搜索引擎的结果中,或者干脆使用工具来阻断对这些网站的访问,但是普通人无能为力。

第二代内容农场时代,只有少部分人会选择去屏蔽那些搬运者,大部分人都选择了接受投喂。

面对即将到来的AI内容农场,人们可以怎么办?你又会怎么办?(席安如)

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平