维基数据创始人提新项目:进一步扩充其他语言版本维基规模

  据外媒报道,根据维基数据(Wikidata)创始人 Denny Vrandečić的说法,维基百科面临最大的问题之一就是如何让有质量的文章以受这个在线百科全书支持的大量语言呈现给用户。Vrandečić在一篇新的文章中提出了一个新的想法,即让内容贡献者使用抽象记号来创建内容,其随后可以被翻译成各种自然语言从而将内容平衡得更加均匀,无论贡献者用的是哪种语言。

wikipedia_logo_story.jpg

  Vrandečić建立推出一个叫做 Abstract Wikipedia(抽象维基百科)的项目,它将可以为来自全球各地的人使用,他们可以输入信息作为抽象记号,然后一个叫做 Wikilambda 的工具负责一系列可以将这些记号翻译成自然语言文本的功能。其结果是,所有版本的维基百科无论用的是什么语言都能在内容更接近英语维基百科的规模。

  Vrandečić的这份 22 页报告对这一提议进行了详细的阐述,其系统如何运转的基本思想是在用户想要写一些 Wikidata 记号的句子时会提供一些东西。

  打个比方,旧金山的 Wikidata 记号是 Q62,北加州是 Q1066807,加州是 Q99,洛杉矶是 Q65,圣地亚哥和圣何塞分别是 Q16552 和 Q16553。下面则是一个伪示例,它可以帮助大家更好地去理解:“Q62 是 Q1066807 的文化、商业和金融中心。它是继 Q65、Q16552 和 Q16553 之后人口第四多的城市。”

  不过实际的表达可能要比上面这个例子复杂得多,但这个示例可以帮助大家更好地去理解这个概念。该软件将使用渲染器和 Wikidata 信息来生成不同语言的内容。

  Vrandečić表示,虽然这个项目具有挑战性,但其不需要在自然语言生成或词汇知识表示方面取得重大突破。尽管这一概念尚处于萌芽阶段,但人们意识到,它将对维基百科不同语言的可用内容产生重大推动作用。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注