给定一个人所有朋友的连接关系,单从网络结构你能识别出他或她的Romantic伴侣吗?Facebook高级工程师Lars Backstrom和康内尔大学计算机科学家Jon Kleinberg于2013年在 Eprint Arxiv 上发表《浪漫关系与社会网络分散性:基于Facebook关系状态的网络分析》一文指出,利用他们建构的“分散性”测度仅以网络结构就可以识别特定个体的爱情伴侣,甚至可以预测,如果一对恋人或配偶的分散性得分比较低,他们在随后两个月分手的概率会大于50%。
爱情关系
在社会网络中,一个人的网络邻居在不同的社会情境中具有相当重要的作用,如社会支持、工作机会。网络结构中包括了家庭成员、同事、长期朋友、熟人,甚至包括潜在的恋人或配偶。在线社会网络分析的一个重要应用就在于利用数据识别这些形形色色的关系。
为什么要研究浪漫关系,与其他亲人、朋友的关系相比,它的是否有特殊之处,特殊在哪里?作者认为配偶或恋人关系研究的重要性有如下几个原因:(1)本质上而言,在个人整个生命历程中,从单身到年老,爱情关系是一类特殊的、起非常重要作用的社会关系;(2)爱情关系构成了个体每天实践和社交媒体使用的一个重要方面;(3)对原有从“嵌入性”角度讨论社会网络提出了挑战。作者研究的一个重要发现就是:在爱情关系的识别中“分散性”测量比“嵌入性”测量更有效。
Facebook大数据与分散性测度
作者从 Facebook 中获得一个随机的用户数据库,在数据库中通过用户标示的“married”,“engaged”或者“in a relationship”等识别相互间的关系。这个数据库包含了 130 万名在个人网络资料中列出以上标示配偶或恋人关系的姓名的成年人,这些人的连接的社会网包含了 86 亿个与他人的关系。下图展示了某个用户的网络结构,图的上侧和右上侧有两个密度较高,相互独立的网络,其余网络则较为稀疏,可见个体的网络结构是异质性的。作者认为这些跨群的个体作为连接桥,对于理解网络中的关系非常重要 。
分散性的理论基础
作者原试图通过“嵌入性”理论来解决这一爱情关系的识别问题,但他们发现嵌入性理论只能完成 24% 的任务,因此提出了“分散性”测量的替代性方案。 一般而言,在生活中多数人都拥有不少朋友群,这些群在互动中形成社会焦点( social foci ),如同事群、同学群。在群里,人们若彼此相互认识,即使没有强关系,这些群也包含了较高的嵌入性。
相反,一个人的伴侣或其他关系密切的朋友可能只有低度嵌入性,在这个网络中,个体间通过不同的几个焦点相互联系,但没有一个高度重叠的焦点,例如一个成年男性,他妻子有同事、亲戚、同学,这些人可以通过这个妻子连接起来,但他们却相互不认识。下图显示了用户u的社会网络,从u到b、c、f,每个连接都有5度的嵌入性,而u和h只有4度嵌入性;另一方面,节点u和h在c和f,j和k的连接中是独特的一对,换句话说,u-h之间的连接分散度高于u与b、c、f之间的连接。
模型与预测
因此,与嵌入性描述的不同,在个体u和他的伴侣v之间所呈现的是“分散性”结构,即u与v之间并没有高度的相互连接,他们之间只通过来自网络不同部分的少数个体连接在一起。分散度的表达式如下:
其中dv表示伴侣u和v之间的距离,s和t分别表示在u和v两者的网络中没有直接联系的个体。当s和t没有直接连接且在u的个人网络中没有共同邻居时,dv(s,t)等于1,否则就等于0。以上图为例,Guh代表u和h的共同网络邻居,包括c、f、j和k,根据上述定义可知disp(u,v)=4,即有4对相互不连接且没有共同邻居的节点,分别是c-j,c-k,f-j,f-k。相反,disp(u,b)=1,其共同邻居包括a、c、d、f、e,但没有直接联系且没有共同邻居的仅a-e。作者把上述disp(u,v)称为绝对分散性(absolutedispersion)。
作者分析发现,要预测u与v是否是伴侣关系,以disp(u,v)/emb(u,v)效力最高,以norm(u,v)表示,定名为标准分散性(normalized dispersion)。在标准分散性的基础上,作者又推导出另一个分散性叫递归分散性(recursive dispersion),以rec(u; v)表示,公式如下:
下表显示了根据嵌入性和分散性公式计算,从数据分析得到的预测结果。从表中可知,与嵌入性公式相比,递归分散性有更高的预测效力,如在所有案例中,分散性公式有0.506的概率,而嵌入性公式仅0.247,结婚人士的预测效力更高,尤其是已婚男性,达到了0.667。
那么分散性与伴侣关系形成两者的关联是什么?作者设置了不同的分散度阈值,分析哪些分散度的预测概率更高。从下表可知,与2、3相比,分散度为4的时候预测概率最高,另外3种设置的预测概率也不如分散度为4的预测效力。也是就说,分散度越高,两个人形成伴侣关系的可能性越大,作者分析了同性伴侣关系也是如此。
此外,利用机器学习法,通过每日社交网络结构数据,作者计算并预测了个体进入“结婚”状态的概率。从下图可以看出绝对分散性和标准分散性的预测准确率大大高于嵌入性。
点评
这是一项重要的创新性研究。从社会网络理论的角度,除了原来的“嵌入性”,“分散性”也具有重要意义,这项研究通过大数据分析发现了这一机制,但笔者尚未发现对这一机制的理论说明:为什么社会网络分散度越高,两人形成伴侣关系的可能性越高?
由于文章中建构分散性测度的计算过程较为复杂,有兴趣的读者可以自行下载原文研读,这里仅做简要介绍。