编者按:本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:曹绮桐
如果了解一个家庭的经济实力、教育水平、生活环境等基础状况数据,你能预测未来十年或者二十年的生活样子吗?
答案是可想而知的 —— 毕竟复杂的社会网络、难测的生活经历,以及每个带有个人主观性质的小小决定,都有可能对未来生活造成不可逆转的方向的改变。
但是,当拥有大量基础数据后,我们或许可以判断个人在特定生活环境下怎样成长或者趋向性做出怎样的决定,某个事件对于家庭会造成怎样积极或者消极的影响, 这也许就会让不可能变成可能。
而 AI 强大的分析数据的能力,给这种预测未来的可能带来了一丝曙光。
如今,科学家们正开始在这一领域的尝试。
来自普林斯顿大学 (Princeton University) 与弗吉尼亚理工大学 (Virginia Tech) 等多家机构的研究人员合作进行的一项大规模研究,通过建立统计和机器学习模型来预测和衡量美国各地儿童、父母和家庭的生活结果,这个大规模的合作项目被称为 “脆弱的家庭挑战”。
来自弗吉尼亚理工大学弗拉林生命科学研究所的研究科学家 Brian Goode 是脆弱家庭挑战中的数据和社会科学家之一。“这是一项努力,试图捕捉数据和模型中构成人类生活结构的复杂性和复杂性。但是,为了更好地推断预测的不确定性和局限性,必须采取下一步行动,将模型置于如何应用它们的环境中。这是一个很难解决的问题,我认为脆弱家庭的挑战表明,我们需要在这一领域提供更多的研究支持,特别是在机器学习对我们日常生活产生更大影响的情况下。”Brian Goode 说道。
Goode 博士
该研究对 1998 年至 2000 年间出生在美国大城市的约 5000 名儿童进行了研究,其中未婚父母所生儿童的样本数量过多。这项纵向研究的目的是了解出生在未婚家庭的孩子的生活。
通过收集六次调查 (孩子出生的时间,然后孩子长到 1、3、5、9、15 岁时),这项研究已经收集了数百万关于儿童及其家庭的数据点。另一组数据将在孩子们 22 岁时被获取。
在研究人员设计这个项目的时候,15 岁的数据 (研究人员在论文中称其为 “保留数据”) 还没有公开。这同时也创造了一个机会,让其他科学家通过大规模合作来预测研究对象的生活结果。
联合组织者收到了来自世界各地 68 所大学的 457 份申请,其中包括来自普林斯顿的几个团队。利用该项目的家庭数据,参与者被要求预测 15 岁时六种生活结果中的一种或多种。其中包括儿童平均绩点 (GPA)、孩子毅力、家庭物质困难、主要照顾者裁员、主要照顾者参与工作培训等。
麦克拉纳汉是普林斯顿大学和哥伦比亚大学 “脆弱家庭与儿童健康研究”(Fragile Families and Child happiness Study) 的首席研究员。“刚开始的时候,我真的不知道什么是大规模协作,但我知道把我们的数据介绍给一组新的研究人员是个好主意, 那就是数据科学家,” 麦克拉纳汉说。
“结果让人大开眼界,” 她说,“要么运气在人们的生活中扮演着重要角色,要么我们作为社会科学家的理论遗漏了一些重要的变量。”
这项挑战是基于 “共同任务法”,这是一种在计算机科学中经常使用的研究设计,但在社会科学中却不常用。这种方法释放了部分但不是全部的数据,允许人们使用任何他们想要的技术来确定结果。目标是准确地预测保留的数据,不管达到这个目标需要多么复杂的技术。
研究结果由 112 名共同作者发表在《美国国家科学院院刊》(PNAS) 杂志上。结果表明,即使使用了最先进的建模技术和包含 4000 多个家庭 1.3 万个数据点的高质量数据集,最好的人工智能预测模型也不是很准确。因此,社会学家和数据科学家对于 AI 预测模型时应谨慎使用,尤其是在刑事司法系统和社会项目中。
弗吉尼亚理工大学的研究小组还在美国社会学协会 (American Sociological Association) 新出版的开放获取期刊《社会学》(Socius) 的一期特刊上发表了研究成果。为了支持这一领域的进一步研究,所有提交的挑战 —— 代码、预测和叙事解释 —— 都是公开的。
研究人员表示,结果向我们表明,我们有很多要学,科学家用来预测大数据集结果的机器学习技术,在预测人们的生活结果方面可能存在不足。
参考资料:
https://www.eurekalert.org/pub_releases/2020-03/puww-pto032520.php
https://www.eurekalert.org/pub_releases/2020-03/vt-pto032720.php