随着技术的不断普及,学者们对人们的行为研究也从线下开始走向线上。毫无疑问,他们的研究方法对于我们理解与研究用户行为有极大的帮助。12月13日,普林斯顿大学的社会学家Matt Salganik出版了新书《Bit by Bit: Social Research in the Digital Age》,介绍了数据与社会科学研究的方法。《连线》杂志对Matt Salganik进行了专访。
搞清楚人类是如何做人类的事情是社会科学(包括心理学、社会学、经济学、人类学等等)能够做到的最令人兴奋的事情之一,同样,这也是最难的一个。我们通常说,可靠、有意义的方法可以将现实世界的行为转化为可以用来实验的变量,但这是难以捉摸的。这可能是“再现性危机”的部分原因,即由于统计方法和研究方法上的压力,一些科学研究有效性引起了人们的担忧,这就是所谓的“软科学”首先要解决但也是最困难的。
普林斯顿大学的社会学家Matt Salganik,正试图解决这个难题。他想知道人类怎样,以及为什么会做出一些行为,尤其是在一个由社会媒介构成的世界里。为了做到这一点,Salganik已经成为了一名硬核数据的痴迷者。他说,现在每个人在服务器上留下的数字痕迹,为人类行为科学研究提供了取之不尽的燃料,而且学会明智地使用它们也能解决社会科学目前在其自身实践中遇到的各种危机。Salganik在12月3日发布的新书《Bit by Bit: Social Research in the Digital Age》中,为数据和社会科学的融合奠定了新的规则。
以下是《连线》杂志对Matt Salganik教授的专访。
这本书有一个有趣的起源故事。
早前,我的一篇论文研究的是在线进行的实验。我们创建了一个网站,让人们可以下载新音乐,但我们可以控制人们能够获取的别人在做什么的信息。这让我们有了一种能够创造和测试社会风尚的能力。通过在网站上而不是在传统的校园实验室里进行实验,我们获得了27000名参与者,是后者情况下的100倍。
论文发表于2006年11月,从那以后,我一直在用数字时代的技术做研究,并把它教给学生。这本书是这段经历的结果。我想帮助其他人开始做这样的研究,并帮助那些已经在一个领域做这件事的人看到与其他领域的联系。
当这本书进入传统的同行评审时,它同时也在网上进行了一个公开审查。我把这本书变成了一系列的网站,任何人都可以过来阅读并注释它们。我能够收集到大量的对这本书有帮助的反馈,同时,我也收集了大量有关人们如何与这本书互动的数据。我们也在使用一些大媒体和科技公司使用的所有大数据技术。现在我们发布了一个开放的评论工具包,其他作者也可以使用。
你通过公开评论获得的反馈与更正式的同行评审有很大不同吗?
我从同行评审中得到的反馈来自于一些专家,他们想法通常是,他们认为这本书应该如何写。
哈哈。
不,有些是好主意。这很有用。我从公开评论中得到的反馈是不同的。他们并不是所有人都是专家,我希望我的书能让非专业人士读懂并为他们提供帮助。所以这对“诊断”书中的一些问题很有帮助。有一个关于我“跳过一个步骤”的注释引发了争论,我看着它,然后想,“哦,是的,我跳过了一步。”对同行的评审和我来说,这是显而易见的一步,但对非专业人士来说,事实并非如此。
你认为谁能使用这本书?谁是读者?
我希望读者会很广泛。比如正面临着一系列问题的社会科学领域的人。比如数据科学领域的人。在大学之外,许多公司都有计算机科学、工程学、统计学等专业的数据科学家,他们也正在研究社会数据。他们本质上是社会科学家,但他们没有受到过社会科学家方面的训练。对于这些人,我希望这本书能向他们介绍一些社会科学的观点,以及社会科学家的工作方式。我在微软研究院休假,那里有一些非常不错的工程师,但他们对社会科学不太了解。
在一些地方,你对数据科学家和社会科学家之间的差异提出了一些观点。这些文化差异具体体现在在哪里?
我认为各个领域有很多东西可以互相学习,互相帮助。过去,社会科学家通常会研究专门为研究目的而创建的数据。在书中,我把这称为“定制数据”。而数据科学家则倾向于使用“现成数据”,这些数据最初是为了某个目的而被用于研究。举个例子,如果社会科学家想要研究公众舆论,他们本能的第一个想法是看一份像GSS(美国综合社会调查)这样的调查,由研究人员为其他研究人员做的。但数据科学家不一样,他们的第一站可能是Twitter。
其中一些差异来自于这些不同领域专家的价值取向。对于社会科学家来说,他们经常需要做的是能够对一些更大的理论做出实证的陈述。对于数据科学家来说,更重要的是,用数据来做一些简洁、有趣或新奇的事情。这些价值观上的差异可能导致采取的方法不同。
此外,所受的训练方面也存在差异。社会科学家在收集调查数据和如何分析数据方面受到了训练;数据科学家通常没有这种培训,但他们接受过其他方面的培训,比如如何使用非常大的数据集。因此,社会科学可以从数据科学家的技术和观点中学到很多东西,同样,数据科学家也可以从社会科学家那里学到很多东西。如果你想研究公众舆论,那么说GSS比Twitter好是没有意义的。你必须要问,哪个数据源对我们的问题最有用。
有一章特别吸引我的是道德问题。你写道,社会科学家在面对看似棘手的官僚体制时,大多只考虑道德与伦理问题,而数据科学家根本就不考虑道德问题。
在与我交谈过的研究人员中,没有人愿意从事不道德的工作,但许多模拟时代的社会科学研究——校园实验、调查研究、人种学研究——的伦理道德已经或多或少地得到了解决。一般来说,你能做什么和不能做什么是一致的。我认为,在利用大量数据开始研究之前,社会科学家们关于伦理道德的方式已经变得有些常规化了。
现在我们有可能做完全不同的事情。我们有能力在未经同意或不知情的情况下观察数以百万计的人,我们有能力在未经同意或不知情的情况下让人们参与实验,这些都是我们可以做的新事情,我不认为我们作为学者已经找到了如何负责任地使用这种权力的方法。在行业和政府中也出现了类似的问题。在数字时代,我们面临的一个重大挑战是,如何以一种负责任的方式利用这些机会。在这本书中,我试图列出一些可以帮助人们思考和谈论的原则。
尊重个人,善意,公正,法律和公共利益。
是的,这些想法并不是我创造出来的。我相信它们在未来可能会有用的一个原因是,它们一直存在。其中有一些原则是我从40多年前发表的《贝尔蒙特报》中得出的。采用以原则为基础的方法而非规则为基础方法的其中一个原因是,我们可以确信我们的能力将会发生改变。为了解释这些新能力,我们需要有一些抽象的原则。
与人打交道最多的研究人员必须遵守的一个原则是知情同意,确保与你共事的人知道他们在做些什么。
这是我列出的四项原则的关键部分。这些都比单纯的知情同意更广泛。目前,我们非常重视知情同意,这显然很重要,但我们可能会过分强调某一特定的事情,而忽视了更广泛的尊重他人的理念,这是由知情同意的原则中衍生出来的。
有趣的是,你正在向社会科学家提出一种数据驱动的方法,而此时社会科学正在应对一场与数据有关的危机——再现性问题和统计操纵,这让我们对该领域的一些关键研究结论产生了疑问。
我想说的是,从模拟时代到数字时代的转变,正是推动大量新数据产生的因素,也使社会科学家有了新的工作实践。它让我们更容易地分享我们的数据和代码,这让我们更容易向所有人提供我们的研究,而不仅仅是那些有幸在大学里订阅昂贵期刊的人。数字时代有可能帮助我们改变和改进我们的社会科学实践,我认为人们会对此感到兴奋并开始接受。
在向数字时代过渡的过程中,具体发生了哪些变化?
当我开始读研究生时,研究人员所使用的数据通常是研究人员为研究人员创造的数据(比如大型的问卷调查数据)。这里面有一些好东西,因为这些数据通常和科学兴趣有关。它通常对所有的研究人员开放,这很重要。
现在有很多数据都是日常行为的副产品。这被称为是“数字追踪数据”或“数字废气”。它的规模更大,创造了很多有趣的研究机会,但也带来了一些问题。这些数据通常都有公司或政府的隐含意图。这被称为“算法混淆”。
这是什么意思?
从Facebook的数据中了解人类行为就像是在赌场里观察人们的行为。你当然可以从赌场里的人那里学到东西,但赌场是一个高度工程化的环境,旨在鼓励某些行为,并阻止其他行为。Facebook也类似。当人们看到Facebook时,他们会想,“哦,这是人们的自然行为。”但这根本不是事实。在许多情况下,系统设计师的目标并不是研究人员的目标。
然后是访问权限。Facebook和Twitter拥有大量的数据,而这些数据对于每一位研究人员来说都是不可用的,这其中有很好的理由——复杂的伦理、法律和商业原因。但如果有一种情况,一些研究人员可以使用,而另一些人则没有,这可能会引发对再现性的担忧。
但社会科学不仅仅只局限于社交媒体。
我的两个孩子,分别是8岁和4岁,正在和Alexa交谈。他们将以一种不同于我的方式与世界互动。这些心理影响将需要一段时间才能观察和理解,但我们已经开始看到行业和社会关系的重大变化。
在任何类型的交易记录中,都有很多机会。Facebook和Twitter,其中很多都是人们有意创建的数据,但在更隐晦的数据中有很大的可能性。比如说,我的手机创建的位置数据。比特币是另一个很好的例子。在经济交易的过程中,这个分类帐就被创造出来了。我有一位同事正在为研究人员制作工具,以了解比特币账簿上的情况。
对于很多人来说,通过公司的平台或分布式的点对点系统相互交流变得越来越容易。在某种程度上,所有这些交互都是通过数字媒介进行的,它们创造了记录。这些记录对研究人员来说都是非常令人兴奋的。