让不可能成为可能txt是wwW238hk又让丰了,或许珍的238hkcom没办法在次用这各

不可能是wwW238hk又让丰了,或许珍的238hkcOm没办法在次用这各_百度知道
不可能是wwW238hk又让丰了,或许珍的238hkcOm没办法在次用这各
我有更好的答案
勇气要面子只会失去心仪的人://wml2p。<a href="http.zd5
? 给你生命给我爱 ( 2010) ? 天师钟馗之美丽传说 ( 2010) ? 国事家事 ( 2010)
为您推荐:
其他类似问题
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。不可能是wwW238hk又让丰了,或许珍的238hkcOm没方法在次用这各_百度知道
不可能是wwW238hk又让丰了,或许珍的238hkcOm没方法在次用这各
我有更好的答案
没空白吧1c9.qk5.tech很整常
为您推荐:
其他类似问题
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。不可能是wwW238hk又让丰了,或许珍的238hkcOm没办法在次用这各_趣族晴雪_leakage_新浪博客
不可能是wwW238hk又让丰了,或许珍的238hkcOm没办法在次用这各
  两个大汉回过头去,发现唐僧正看着他们。
  “还有什么事?”那个大汉问。
  “你们刚才说的供奉龙王,还有你的女儿是什么意思?”唐僧问。
  “你管这么许多干什么,难不成你是查户口的?”大汉又问。
  “阿弥陀佛,贫僧是从东土大唐到西天取经的僧人。”唐僧双手合十恭敬的说。
  “所以呢?”大汉甩了甩手,像是有些累了,不耐烦的说:“我们不信佛。”
  “可我后面这三个徒弟和那龙王倒是颇有些交情。”唐僧挺直了胸膛说。
  两个大汉眼睛一亮。
  他们扔下了板凳和铁锤,跑到了唐僧身边,眼中充满了欣喜。
  那个大汉问:“你刚才说的可是真的?”
  唐僧淡淡的说:“出家人不说谎话。”
  沙僧幽幽的说:“你说的谎话还少吗?”
  孙悟空也说:“就是你骗我带上紧箍咒的。”
  猪八戒说:“你还说进了城让我想去哪去哪,我刚才想去快活快活你都不同意。”
  白马说:“咴咴。(人语是:你说只要多弯着腰就能治我腰疼的老毛病,结果我就被你骗了,做了一匹马。)”
  “够了!”唐僧大叫一声,“你们是师父还是我是师父?”
  “你。”三人一马说。
  “那你们该听谁的?”唐僧又说。
  “反正不是你的。”三人一马又说。
  “该死!”唐僧哭丧着脸骂了一句。
  忽然,唐僧发现还有两个大汉正在盯着他们看,又咳嗽了几声说:“阿弥陀佛,近来我这几位徒弟没吃药。”
  大汉无奈的说:“哦。”
  唐僧说:“请你具体和我说说这件事吧。”
  两个大汉对视了一眼,紧接着点点头,那个开始拿铁锤的大汉上前了一步,说:“我名叫尤一,这是我的弟弟。”
  “那你的弟弟一定叫做尤二!”沙僧脱口而出。
  “对人要有礼貌!”唐僧对着沙僧说,接着又问:“您的弟弟是不是叫做尤二?”
  众人黑下了脸。
  “我发誓总有一天我要农民起义,推翻这个二货的政权。”沙僧嘟嘟囔囔的说。
    尤一叹了口气说:“从前……”
  “……有座山,山里有座庙,庙里有个老和尚还有个小和尚,老和尚给小和尚讲故事,讲的故事是……”白马又滔滔不绝的说。
  猪八戒生气的说:“闭嘴!”
  白马又不说话了。
  尤一望望天,像是想起了什么。
  龙城,正如这城的名字一般,城内有一条九头神龙护佑。没有人知道它是什么时候存在的,只知道自从这城建立之时,这九头神龙便存在了。
  事情发生在尤一女儿刚出生一个月之后。
  那天,毫无例外的是一个一看起来就会有坏事发生的阴天。
  尤一的妻子因为难产死亡,与他相依为命的,只有一个刚刚满月的女儿,还有这个在龙城边沿的小木屋罢了。
  他的妻子喜欢安静。他也如此。如果不是为了他的女儿,他也不会拉下脸去城中心表演什么可笑的胸口碎大石吧。
  尤一呆呆的望着天空,看着那朝霞如血般染红了天空。
  攸地,远处出现了一个小黑点。它渐渐逼近着,朝着尤一的方向飞了过来。
  愈来愈近,愈来愈近。
  尤一睁大了眼睛。他认识这个东西,书上有写。
  在那天空之上向着他飞来的,是整座龙城的守护神,被城里人所敬为神明的九头神龙。
  然而,却又有些不同。
  书上那条龙,带着浩然的正气。天上这条龙,散着阴暗的浊气。
  即使两者都有九头,却高下立判。
  尤一不由自主的吞了口口水。
  下一刻,他清楚的看到了那条九头神龙的模样。恐怖,骇人,说在它的脸上拥有了世界上所有的负面情绪也不为过。
  他已经支撑不下去了,即使只是再看一眼。
  他终于惊慌失措的跑进了屋子里。
  而那天空的九头神龙像是没看见尤大一样,仍旧是一副大摇大摆的模样飞过了尤一的小木屋。
  尤一透过木板间的缝隙看着那条九头神龙渐渐飞过了他的屋子,终于有些心安。
  毕竟,危险即将远去不是吗?
  忽然,九头神龙停在了空中。下一刻,他摇身一变,全身乌黑丑陋的鳞片消失不见,取而代之的是一身闪着金光的宝鳞,看起来华丽极了。
  尤一看了看手里这本印有九头神龙形象的书,正与此刻那天上的形象相吻合。
  “原来,传说中龙城的保护神,只是一个拥有虚假外表的妖怪吗?”尤一呆呆的说。
  九头神龙又飞向了龙城,身上散发着圣洁的光辉。
  尤一脑中那可怖的形象挥之不去,不断地在他的眼前闪现。
  因为那曾经是他的信仰。
  当信仰崩塌的时候,一个人的精神也会随之崩塌。
  尤一抱着头,竟然在小声抽泣着。
  这个大汉居然在抽泣着。
  “哇哇哇……”
  尤一忽然被一阵婴儿的哭闹声惊醒,他看见自己手里不知何时拿起的尖刀,吓得猛地一颤,将尖刀扔的远远的。
  他看向那个婴儿,心情慢慢平稳下去。
  “我一定要揭穿那个妖怪的真面目,一定要!”尤一说。
瓒f棌鏅撮洩_leakage
博客等级:
博客积分:0
博客访问:20
关注人气:0
荣誉徽章:赞助商链接
当前位置: >>
复杂网络的结构和功能
复杂网络的结构和功能M.E.J.Newman Depart ment of Physics, University of Michigan, Ann arbor, MI 48109, USA and Santa Fe Institute, 1399 Hyde Park Road, Santa Fe, NM 87501, USA 翻译:杨波 万阳松 韩丽川 校对:陈忠 编辑:陈晓荣 上海 200052 上海交通大学复杂系统与智能管理研究中心近年来,受到因特网、社会网络、生物网络等网络形式系统的经验研究的启发,研究者们 提出了许多技术和模型,可以帮助我们理解和预测这些系统的行为。在此,我们回顾总结 一些研究进展,包括小世界效应、度分布、群聚以及网络相关等概念、随机图模型、网络 生长和偏好连接的模型、以及发生在网络上的动态过程。内容Ⅰ 引言 A 网络类型 B 其它文献资料 C 论文框架 Ⅱ 现实世界网络 A 社会网络 B 信息网络 C 技术网络 D 生物网络 Ⅲ 网络的属性 A 小世界效应 B 传递性或群聚属性 C 顶点度分布 1.无标度网络 2.最大顶点度 D 网络弹性 E 混合模式 F 顶点度相关性 G 群落结构 H 网络导航 I 其它网络属性 Ⅳ随机图 A Poisson 随机图 B 一般随机图 1.配置模型 2.例子:幂律度分布 3.有向图 4.二部图 5.度相关 V 指数随机图和马尔柯夫图 Ⅵ 小世界模型 A 群聚系数 B 度数分布 C 平均路径长度 Ⅶ 网络生长模型 A Price 模型 B Barabasi-Albert 模型 C Barabasi-Albert 模型的推广 D 其他生长模型 E 顶点拷贝模型 Ⅷ 发生在网络上的过程 A 渗流理论和网络弹性 B 传染过程 1.SIR 模型 2.SIS 模型 C 网络搜索4 1.穷举网络搜索 2.有导向的网络搜索 3.网络导航 D 网络相变 致谢(见原文)E 其它网络上过程 Ⅸ总结和未来研究方向 参考文献Ⅰ 引言网络是顶点(有时也称为结点)以及边(顶点或结点之间的关联)的集合(图 1) 。网络形式的系统(在 很多数学文献中也称为“图” )随处可见,例如,因特网、万维网、社会网络、组织网络、公司间商务 关系网络、神经网络、新陈代谢网络、食物网、分布网络如血管分布或邮政运输路线分布、论文之间相 互引述而形成的网络,以及其它种种形式(图 2) 。本论文评述了在诸如上述之网络系统的结构和功能 方面,近期(或部分前期)所进行的研究工作情况。图 1 一个包含 8 个顶点和十条边的小网络图 2 本篇综述中主要提及的三种类型的网络。(a)反映淡水湖中物种捕食关系的食物网[272],图由 Neo Martinezh 和 Richard Williams 提供 ;(b)反映私人研究机构中科学家之间合作关系的网络[171];(c)个体之间性接触网络,见 Potterat 等人的研究[342]。数学中以图论形式开展的网络研究是离散数学的基柱之一。欧拉 1735 年提出的著名的七桥问题解 是网络理论首个真正的证明并得到广泛引用。二十世纪期间,网络发展成为一个重要的知识实体。 在社会科学中网络也得到广泛研究。 社会学中典型的网络研究包括调查问卷发放,问卷要求被调查5 人详细描述与其他人的互动关系。利用问卷调查结果可以重新构建一个网络,其中顶点代表个人,边代 表人与人之间的作用关系。 典型的社会网络研究包括中心性研究(所谓中心性即存在与其它个体联系最 为紧密的个体或存在具有最强影响力的个体) 以及连通性研究 , (研究个体是否通过网络彼此发生联系, 以及如何发生联系) 。 近年来, 网络研究的焦点出现了一个重要的新变迁,即从对单个的含顶点数少的图以及图中个体顶 点或边的属性分析转变为对含大量顶点数的图的统计属性进行研究。 这一新研究方法很大程度上得益于 计算机和通讯网络的出现,使得人们能够收集和分析远大于以前的规模的数据。过去,研究对象可能是 只有数十个顶点的网络,极端情况下也不过数百个顶点。如今,包含数百万个甚至数亿个顶点的网络也 屡见不鲜。 网络规模的变化迫使我们相应地改变我们的分析方法。许多过去在小型网络研究中可能被问 及的问题已经不能够简单地在很多大型网络中适用了。 社会网络的分析者可能会问, “网络中哪个顶点, 在被删除的情况下将证实其对网络的连通性最为关键?” 但此类问题,对于多数包含有数百万个顶点的 网络来说,已几乎没有意义,在这种网络中删除单个顶点根本不会产生很大的影响。另一方面,对大型 网络而言,提出下面的问题是合理的,即“假定要对网络连通性产生实质影响,需要删除百分之多少的 顶点?” 。此问题甚至是对于非常大型的网络而言也是具有现实意义的。 然而,近年来网络研究方法出现变化还有另一个常被忽视的原因,其重要性也不能被低估。对于只 有数十个或数百个顶点的网络而言,我们用实际的点和线就可以相对直接地画出网络图(图 2) ,并通 过观察图来回答有关网络结构的特定问题。 这也是自网络研究领域开创以来,分析家们首要采用的方法 之一。 人眼是一种非常强大的分析工具, 用目光对网络图进行观察是一种了解其结构的极好方式。 然而, 这一方法对于一个拥有百万个或上亿个顶点的网络来说却不起作用。 仅凭一人之力不能够做到既描绘出 一个包含百万个顶点的网络图,同时又能够使其有意义,即使动用现代的 3D 计算机绘图工具也做不到 这点, 从而要想通过眼睛观察进行直接地分析也是不可能的。近期在大型网络量化的统计方法方面的研 究进展在很大程度上是在进行一种尝试, 试图发现可取代眼睛观察在二十世纪网络分析中作用地位的方 法。统计方法回答如下问题, “如何在不能够对网络作出实际观察的情况下得知这一网络的形象?” 本篇综述的首要目的有三个:第一,确定表征网络系统结构和行为的统计属性,如路径长度和度分 布,并对如何度量这些属性提出适当的方法建议;第二,构建能够帮助理解这些属性意义的网络模型― ―理解统计性质何以如此,彼此间又有何联系;第三,在已知结构属性和控制个体顶点的局部规则的基 础上,预测网络系统的行为。举例而言,网络结构是如何影响因特网上通讯的,其对网上搜索引擎的工 作方式有何影响作用,其对社会或生物系统动态的影响作用又如何。正如我们将看到的,科学界从大批 学科中汲取思想,从而为前两个目的的实现,即网络结构的属性描述和建模,开创出良好的开端。而另 一方面, 有关结构对系统行为的影响作用的研究尚处于初期阶段,该领域中的关键理论进展还需进一步 观望。A 网络类型顶点和边的集合仅是网络类型中最简单的一种。有很多远较其复杂的网络类型存在(图 3) 。例如, 网络中可能存在不止一种类型的顶点或边。并且,顶点或边可能会有很多属性与之相关联,如数值属性 或其它。以社会网络为例,顶点可以代表不同性别、国籍、地域、年龄、收入等的人。边可以代表相互 间的友谊,但也可以代表相互间的敌意,或者是职业上的交往,又或者是代表空间上的接近。边可以带 权重,如刻画二人相互认识程度的权重,也可以是仅有一个方向的边。由有向边构成的图称为有向图。 代表个人之间电话或电子邮件信息传递的图就是有向图, 因为对每一条信息而言, 它都是单方向传递的。 有向图可以是有环的,即图中包含边的闭合回路,也可以是无环的,即图中不包含边的闭合回路。有一 些网络,如食物网,就近似于是但又不完全是无环网络。6 图 3 网络各种类型的例子:(a)仅包含单一类型顶点和单一类型边的无向网络;(b)包含众多不同类型顶点和边的网络; (c)包含权重不同的顶点和边的网络;(d)每条边均有一个方向的有向网络;图中还可能有超边――连接两个以上顶点的边。 包含超边的图称为超图。超边可以用于刻画社会网 络中的家族关系,例如,n 个个体由于属于同一直系家族而相互关联,就可用一条连接它们的 n 边来刻 画。图也可用多种方式进行自然分割。二部图中有很多这样的例子。二部图包含两种类型不同的顶点, 边仅存在于不同类型的顶点之间。 所谓的隶属网络就是二部图,图中人们通过共同的群体成员关系而相 互关联,二种类型的顶点代表人和群体。此外,图也可随时间而发生变化,添加或删除顶点或边,或者 定义在这些顶点和边上的值发生改变。 除上述情况外, 还存在很多具有其它复杂程度的网络。 目前为止, 针对网络的研究远没有完备, 有很多可能性还需要作深入探讨。本篇综述所涉及的文献中有关于这些变 化作出的描述,此处我们将给出部分实例。 不幸的是,网络研究用语会和其他来自不同领域的研究者的习惯术语相混淆。为避免出现(或至少 是减弱)这一混淆,我们在表Ⅰ中给出了在本综述中用到的某些术语的解释。B 其它文献资料近期出现了很多其它的有关此领域的评论,读者可能会希望查阅。Albert 和 Barabasi[13]以及 Dorogovtsev 和 Mendes[120]刊发了大量的学术评论,集中针对物理学文献。二者都将更多的注意力投 入 于 生 长 图 模 型 , 对 此 我 们 在 综 述 第 七 节 有 所 论 述 。 一 些 持 其 它 观 点 的 短 评 见 Newman[309] 和 Hayes[189,190]的文章, 此两人关注所谓的 “小世界” (见综述第六节)以及 Strogatz 的文章[387], 模型 , 他对网络形式的动态系统的行为进行了有趣的探讨。 有很多书也值得一读。Dorogovtsev 和 Mendes 的书[122]是在他们前述评论基础上的扩充,书中再 次聚焦于生长图的模型。 Bornholdt 和 Schuster[70]以及由 Pastor-Satorras 和 Rubi[330]编辑的书 由 中收集了一些著名研究者写下的各专题的文章,目前很多专题的详细研究内容在此书中都能够找到。 Newman 等人的书[320]收集了他们以前发表的论文,以及评论。 三本流行的有关网络研究的书也值得注意。Albert-Laszlo Barabasi 的《连接:网络新科学》[31] 对网络研究的近期进展情况作出了个人评述,书中特别关注他本人对无标度网络的研究。Duncan Watt 的《六度:关联时代的科学》[414]给出了社会学家对新旧发现的看法,部分具有一定历史意义。Mark Buchanan 的《核心――小世界和极富创造力的网络科学》[76]从一名社会新闻工作者的角度给出了对 此领域的有趣描述。 此外更远一些来说,在一些特定领域还有很多有关网络研究的书。图论方面被广泛引用的书是 Harary[188]和 Bollobas[62]所著。社会网络理论家中著有有关网络研究的书见于 Wasserman 和 Faust[409]以及 Scott[363]。Ahuja 等人所著的书[7]是了解网络算法的有效信息来源。7 =============================================================================== 顶点(vertex,pl.vertices) :网络的基本单元,也称为 site(物理学用) 、结点 node(计算 机科学用)或演员 actor(社会学用) 。 边(edge) :连接两个顶点的线。也称为 bond(物理学用) 、link(计算机科学用) 、tie(社 会学用) 。 有向(directed)/无向(undirected) :一条边如果仅有一个方向可通行则称为有向边(如 两点之间的单行道) ,一条边如果仅有两个方向均可通行则称为无向边。有向边,有时也称为 弧(arc) ,可以比作是指向目标的箭矢。一个图若其中所有边均为有向边,则此图为有向图。 无向图也可视为是有向图,图中相关联的边等同于是有向图中的两条有向边。 度(degree) :与一个顶点相关联的边的条数。注意,顶点度并不等同于与此顶点邻接的顶点 的个数,因为任两个顶点之间可能有多于一条的边存在。近来一些文章中,度被指为顶点的 “关联性(connectivity) ,但我们避免使用这种用法,因为关联性一词在图论中已有其它的 含义。有向图中每个顶点都有一个出度和入度,分别是指入边和出边的条数。 组元(component) :一个顶点所属的组元是指,从此顶点出发沿着有图中边所构成的路径可 以到达的顶点集合。有向图中一个顶点同时有入组元和出组元,分别是指沿着有图中边所构 成的路径可以到达此顶点的顶点集合,以及此顶点出发沿着有图中边所构成的路径可以到达 的顶点集合。 最短路(geodesic path) :最短路是指经由网络从一个顶点道另一个顶点的最短路径。注意, 两个顶点之间的最短路可能是并且经常是不止一条。 直径(diameter) :网络的直径是指任两个顶点之间最短路径的最长长度(长度是指包含的边 数)一些学者也用此术语来表示图中平均最短距离, 。 虽然严格意义上说这两个量区别非常大。==============================================================表Ⅰ 本论文中用到的某些术语C 论文框架本综述框架如下。第二节论述了有关网络结构的经验研究情况,包括社会网络、信息网络、技术网 络和生物网络。 第三节论述了在很多网络中都能够观察到的一些共同属性,回答如何度量这些属性的问 题,以及解答他们为何被认定对网络系统的运作起到重要作用。第四到第七节是本篇综述的中心,描述 * 了有关网络数学建模方面的研究工作,包括随机图模型和它们的一般性模型、指数随机图、p 模型和 Markov图、小世界模型及其变异模型、生长图模型包括偏好连接模型及其变异模型。论文第八节讨论发 生在网络上的过程的研究进展,包括网络传播过程、网络故障、相变模型、以及诸如随机布尔网络和元 胞自动机的动态系统。论文第九节给出结论,并指出未来研究方向。Ⅱ 现实世界网络本节我们来看看有关不同类型网络结构的研究。 近来关于网络的数学研究工作的开展很大程度上是 由实际网络属性的观察所推动,试图对它们进行建模,因此对于本文而言收集网络数据明显应是起点。 同时, 观察来自于不同种类网络的数据也是有意义的举措。近来此领域研究的主要突破之一是对来自不 同科学分支的网络的对比研究, 重点是针对这些网络中的大部分所具有的共同属性以及反映这些属性的 数学进展, 这一工作的激励源泉特别要提到 Watts 和 Strogatz[416]1998 年突破性的论文。本文我们将 针对四个松散的网络类别进行总结:社会网络,信息网络,技术网络和生物网络。8 A 社会网络社会网络是人或人的群体的集合,这些人之间具有某一接触或相互作用模式[363,409]。个体之间 友谊模式[296,348],公司之间商业关系模式[269,286],以及家族之间联姻模式[327]这些都是过去已 1 被研究的例子 。在众学科中,社会科学拥有的对现实世界网络进行实质的定量研究的历史最长 [162,363]。与此主题有关的早期研究中特别值得一提的包括:Jacob Moreno在二十世纪 20 年代和 30 年代对小群体中的友谊模式进行的研究[296];Davis等人所谓的“南方女性研究[103],其关注 1936 年美国南方一个未具名的城市中妇女的社交圈;Elton Mayo及同事对二十世纪 30 年代后期芝加哥工厂 工人的社会网络进行的研究[357];Anatol Rapoport的数学模型[346],他是强调顶点度分布在所有类 型的网络,而不仅是在社会网络中具有重要性的首批科学家之一,也可能他就是第一人;Rapoport和其 他人对校童的友谊网络进行的研究[149,348]。 最近, 有关商业团体的研究[167,168,269]和性接触模型 的研究[45,218,243,266,303,342]吸引了特别的注意。 另一组重要的实验是著名的Milgram“小世界”实验[283,393]。这些实验并未重建实际网络,但它 2 们告诉我们有关网络结构的东西。实验要求参与者把一封信 传给他们熟悉的人之一使这封信最后传到 指定目标个体,藉此来探明熟人网络中路径长度的分布。实验中大多数信都被弄丢了,但有大约四分之 一的信到达了目标人,这种情况下平均传过人之手仅有约六人。这一实验是流行的“六度分离”概念的 起源, “六度分离” 虽然 这个词在Milgram的文章中并没有出现, 它是由Guare在几十年后造出来的[183]。 Garfield撰写了一篇关于Milgram的研究和源自于Milgram的研究的简短但有价值的早期述评[169]。 传统的社会网络研究经常遭遇不准确、主观性和小样本的问题。除了一些精巧的间接研究,如 Milgram 的研究外,通常是通过利用问卷或面谈的方式直接询问参与者来进行数据收集的。这些方法工 作量大,因此限制了能被观察的网络规模的大小。此外,调查数据受到回答方的主观偏见影响;例如一 位回答者定义其朋友的方式与另一回答者相比可能有相当的不同。 虽然在消除可能的不一致源头方面投 入了很多努力,但一般认为这些研究中的大多数都存在大的、本质上无法控制的错误。Marsden 撰写了 有关这些问题的述评[271]。 由于这些问题的存在, 很多研究者转向用其它方法来探究社会网络。一个丰富且相对可靠的数据源 是协作网络。它们是典型的隶属网络,在其中参与者按一种或另一种方式分群合作,并且个体对之间的 联系是通过共同的群成员资格建立的。 此种类型网络一个经典而意义不甚大的例子是电影演员的协作网 3 络,这在在线因特网电影数据库中有详细记载 。该网络中演员在电影里合作,两位演员如果他们一同 在电影中出现则认为他们之间有联系。很多学者对该网络的统计属性进行了研究[4,20,323,416]。此种 类型网络另一些例子包括公司董事网络,其中两位董事如果他们属于同一个董事会则是关联的 [104,105,269] ; 学 术 合 作 网 络 , 其 中 个 体 如 果 他 们 曾 合 作 过 一 篇 或 多 篇 论 文 则 是 关 联 的 [36,43,68,107,182,279,292,311,312,313]; 同时露面网络,其中个体如果他们在同一处被提及则是关 联的,特别是在网页上[3,227]或在报纸文章上[99](见图 2b) 。 另一个关于人们之间个人联系的可靠数据源是某些种类的通讯记录。例如,我们可构建一网络,在 其中两个人之间的每条(有向)边代表从一个人到另一个人的通过邮寄递送的信或包裹。就我们目前所 知,有关此类网络的研究目前还没有发表过,只是发表过一些相似的东西。Aiello 等人[8,9]对由 AT&T 长途网络一天内的通话所构建的网络进行了研究。 此网络中顶点代表电话号码, 有向边代表从一个号码 向另一个号码呼叫。尽管只是一天,这个图就非常庞大了,有约五千万个顶点,目前是继万维网图之后1偶尔也有关于动物的社会网络的研究,例如海豚[96],这里不论及虚构人物的网络,如托尔斯泰的《安娜?卡列尼娜》 中的主角[244]或Marvel Comics的超级英雄[10]。 2 实际上是一个包含几个文档的文件夹。 3 http://www.imdb.com 9 研究的最大图之一。Ebel 等人[136]利用 email 服务商保留的日志文件重新构建了 Kiel 大学五千名学 生之间的 email 通讯模式。 此网络中顶点代表 email 地址, 有向边代表从一个地址向另一个地址传送的 信息。有关 email 网络的研究还见 Newman 等人的文章[321]和 Guimera 等人的文章[185],Smith 针对 “即时信息传送”系统构建了相似网络[371],Holme 等人相似网络的构建是针对因特网社区网址的 [196]。Dodds 等人[110]进行的是 Milgram 小世界实验的 email 版本实验,其中要求参与者传递一条 email 信息给他们的朋友中的一人,为了最终将信息传给某一选定的目标个体。实验的回应率相当低, 但记录下来了几百个完全信息链,这足够来进行各种统计分析了。B 信息网络第二种网络类别是我们将称之为信息网络的类别(有时也称为“知识网络”。信息网络经典之例是 ) 学术论文之间的引文网络[138]。大部分学术论文都经由相关主题的其它文章来引用以前做的工作。这 些引用就形成了一个网络,在其中顶点代表论文,从论文 A 到论文 B 的有向边代表 A 引用 B。则引文网 络的结构反映了存储在它的顶点上的信息的结构,即术语“信息网络” ,当然论文的引用模式也有社会 的方面因素在内[420]。 引文网络是非循环的(见第一节 A) ,因为论文仅能引用已写好的其它文章,而不能引用还没写的 文章。因此,网络中所有的边都同时向后指,使得闭合环不可能存在,或至少是极少存在(见图 4) 。 作为科学研究的对象, 引文网络的很大优势在于可获得丰富且准确的数据。发行模式的定量研究至 少可以追溯到 1926 年Alfred Lotka的所谓的科学生产力规律的极具创造性的发现,它指出,个体科学 家撰写的论文数的分布服从幂律。即,撰写过 k 篇论文的科学家的人数减少到 k?α, α 为某常量。 (事实上,这一结果也可推广到文科和人文学科。 )有关引用模式的认真研究开始于二十世纪 60 年代,当经 过Eugene Garfield和其他开创者在目录度量学领域的工作使大型引文数据库成为可用。因引用而形成 的网络在Price早期论文中有所讨论[343],其中作为结果之一,作者首次提出,网络的入度和出度分布 都服从幂律,这是一个深远的发现,我们在第三节C中有进一步讨论。从那以后,出现了很多其它的有 关引文网络的研究,这些研究利用从引文数据库中获得的更好的资源。特别值得一提的是Seglen[364] 4 和Redner[351]所做的工作 。图 4 两个研究得最成功的信息网络。左边:学术论文引文网络,其中顶点代表论文,有向边代表一篇论文被另一篇论文 引用。由于论文只能够引用那些在它们之前的文章(图中位置更低的部分) ,所以图是非循环的――没有闭合环。右边: 万维网,一个由因特网上可获得的文本页面构成的网络,其中顶点代表页面,有向边代表超链接。万维网上没有限制环 的出现,因此一般而言它是循环的。信息网络另一个非常重要的例子是万维网, 它是一个由包含各种信息的网页所构成的网络,这些网 页由从一张页面到另一张页面的超链接联结[203]。不要将万维网和因特网相混淆,后者是一个由通过4引用模式研究的一项有趣的发展是自动引用“爬行者”的开发,它从在线论文构建引文网络。例子包括 Citeseer(http://citeseer.nj.nec.com/),SPIRES(http://www.slac.stanford.edu/spires/hep/)和 Citebase(http://citebase.eprints.org)。 10 光缆和其它数据连接物联结在一起的计算机形成的网络 。不像引文网络,万维网是循环的;不存在地 址的自然排序,没有限制闭合环的出现(图 4) 。万维网自从二十世纪 90 年代首次出现以来,有相当多 的研究是有关它的,特别有影响力的包括Albert等人的研究[14,34],Kleinberg等人的研究[241]以及 Broder等人的研究[74]。万维网也具有幂律分布的入度和出度(第三节C) ,以及各种其它的有趣的属性 [2,14,74,158,241,254]。 关于万维网要注意的重要一点就是,我们的有关万维网的数据来自于网络“爬行” ,其中是通过从 其它页面跟踪超链接而找到网页的[74]。因此,我们得到的万维网的网络结构描绘必定带有偏倚。页面 6 仅当有另一张页面指向它的时候才会被发现 ,并且一次爬行仅覆盖了万维网一部分(所有爬行都是这 样) ,指向一些网页的其它页面越多,这些网页就越可能被发现[263]。这说明了,比方说,我们可能低 7 估了拥有低入度的网页所占的比例 。这一行为与引文网络的行为形成对比。一篇论文即使它从未被引 用过,它也能出现在引文索引中(事实上索引中的大多数论文都从未被引用过) 。 对信息网络其它一些例子进行的研究较少。 例如, Jaffe 和 Trajtenberg[207]研究了美国专利之间 的引用网络,它在某些方面类似于学术论文之间的引用。很多学者对点对点网络进行了研究[5,6,205], 它是计算机虚拟网络, 允许局域网和宽带网计算机用户之间共享文件。 Knuth[244]研究了辞典中单词类 别之间关系的网络,最近还有其它不同学者对此进行了研究[234,304,384]。此网络可被看作为信息网 络――辞典使用者在这一网络上“冲浪” ,从一个词到另一个词,寻找准确捕捉到了他们脑海中的思想 的特定词。 然而, 它也能被看作为代表语言结构的概念网络, 或甚至可能是被用于描绘语言的心智构造。 还有很多其它的语义词网络也得到研究[119,157,369,384]。 偏好网络提供了一个双向信息网络的例子。偏好网络有两种顶点,分别代表个体和他们的偏好物, 如书或电影,每一个体通过一条边和他们喜欢的书或电影连结起来。 (偏好网络也可加权重来显示喜欢 8 或不喜欢的程度。 )偏好网络一个被广泛研究的例子是电影偏好的Eachmovie数据库 。这种网络构成了 协作渗流算法和介绍人系统的基础, 这些技术用于在比较个体偏好和其他人偏好的基础上预测新的喜好 和厌恶[176,352,367]。协作渗流技术获得了相当大的商业成功,包括产品推销和目标广告,特别是同 在线零售商一起。偏好网络也可被视作是社会网络,不仅把人与物连接在一起,还把人和与之有相似偏 好的其他人连接在一起。这一方法偶尔在文献中被采用[227]。5C 技术网络网络的第三种类别是技术网络, 这是人造网络其设计的典型目的是分配一些商品或资源,如电或信 息。电力格子是一个很好的例子。这是一个高伏电压三相传输线的网络,跨越一个国家或者国家的一部 分(与地方上低伏电压 a.c.电力传输线相对比,后者跨越的是个别附近的几个地方) 。有关电力格子的 统计研究有一些学者作过,例如,Watts 和 Strogatz[412,416]和 Amaral 等人[20]。有研究的其它分配 网络包括航空路线网络[20],和道路网络[221],铁路网络[262,366]以及人行交通网络[87]。河流网络 被视为是分配网络的自然出现形式(实际上是一个托收网络)[111,270,353,356],就像第二节 D 中讨 论的血管网络一样。电话网络和诸如邮局或包裹递送公司使用的那些递送网络也都属于这一一般性类 别,并且在学术研究者之前就有相关企业进行了研究。 (此处我们区分开来电线和电缆的物理电话网络 以及在第二节 A 中讨论的谁呼叫谁的网络。 )电子电路[155]介于分配网络和通讯网络之间。5 6而万维网主要是一个信息网络,像引文网络一样,其结构也有社会方面的因素在内[3]。 严格的说这不总是正确的。一些万维网搜索引擎允许公众成员递交页面作为数据库中内容,这样的页面无需是其它任 何页面链接的目标。然而,此种页面也形成了所有万维网页面的一个非常小的部分,且当然的是此处所讨论的偏倚也定 存在。 7 图 6 中所示万维网的顶点度分布在低入度值处轻微减少,这可能反映了这种偏差。 8 http://research.compaq.com/SRC/eachmovie/ 11 另一个研究得非常广泛的技术网络是因特网,即,计算机之间物理连接网络。由于因特网上计算机 的数量庞大且经常变动, 因此对此网络结构的研究通常是粗略的,针对路由器――网络上控制着数据运 动的有特殊目的的计算机,或“自治系统”――即计算机群,群中联网是局部处理的,而群之间数据在 公共因特网上流动。 单个公司或大学的计算机可能形成一个自治系统――此自治系统经常利用域名进行 简单联系。 事实上, 对因特网上物理连接网络不容易观察, 因为其基础结构部分是受很多分割开的组织控制的。 因此典型做法是,研究者通过从点对点数据通道的大型样本中推理来重构网络。所谓的“踪迹路线”程 序能够报告网络顶点的顺序, 即数据包在两个点之间游走时经过的顺序,如果我们假设网络中沿着这样 一条路径上任意两个连续顶点之间存在一条边, 那么足够大数目的路径样本将为我们提供整个网络的一 个相当全面的描绘。然而,可能存在一些从未被抽样的边,因此依上重构出来的东西虽然较好,但不能 够完美的代表因特网的真实物理结构。 其他一些学者也对因特网结构进行了研究,包括 Faloutsos 等人 [148],Broida 和 Claffy[75]和 Chen 等人[86]。D 生物网络很多生物系统可以被表示成网络。 生物网络的典型例子可能是代谢路径网络,它是代谢基质和代谢 产物的刻画,如果一已知代谢反应存在,其作用于给定基质并产生指定产物,两者之间由有向边连接。 9 我们中的多数人都可能在某种状况下看过被很多分子生物学家钉在墙上的代谢路径巨图 。一些学者对 代谢网络的统计学属性进行了研究, 例如, Jeong等人[214,340], Fell和Wagner[153,405], 以及Stelling 等人[383]。一个不同的网络是蛋白质之间的力学物理相互作用网络(与代谢物中的化学反应相对) ,它 经常被指为蛋白质相互作用网络。很多学者对相互作用网络进行了研究[206,212,274,376,394]。 生物网络另一种重要的类别是基因调节网络。基因表达式,即基因编码蛋白质的转录和翻译产物, 能够被其它蛋白质的存在所控制,包括催化剂和抑制剂,因此基因组自身形成了一个开关网络,顶点代 表蛋白质, 有向边代表蛋白质产物对其它顶点蛋白质的依赖。调节网络的统计结构近来得到不同学者的 研究[152,184,368]。实际上,基因调节网络是首批人们试图对其进行大规模建模的网络化动态系统之 一。 Kauffman 对随机布尔网的早期研究[224,225,226]是此领域的经典, 几十年来都领引着近代的发展。 生物网络另一个研究得很多的例子是食物网,其中顶点代表生态系统中的物种,从物种 A 到物种 B 的有向边表明 A 捕食 B[91,339]――见图 2a。 (有时按相反方向来画关联关系,因为生物学家倾向于根 据流经食物网的能量流或炭流来考虑;因此 捕食者-猎物关联关系被画为从猎物指向捕食者的箭头, 表明当猎物被吃时能量从猎物流向捕食者。 )完全的食物网的构建是工作量非常大,但近年来可获得了 很多相当广泛的数据集 [27,177,204,272]。一些学者对食物网的拓扑结构进行了统计学研究,他们包 括 Sole 和 Montoya[290,375],Camacho 等人[82]以及 Dunne 等人[132,133,423]。Jordano 等人[219] 对植物和食草动物网络进行了特别彻底的研究,包括对不少于 53 个不同网络的统计。 神经网络是另一种类别的相当重要的生物网络。 对现实神经网络的拓扑结构进行测度极为困难,但 在一些案例中得到成功实施。最有名的例子是线虫 C.Elegans 的包含 282 个神经元的神经网络的重建, 这项工作是由 White 等人做的[421]。Sporns 等人[379,380]对比个体神经元规模更大的大脑的网络结 构即功能区和路径进行了研究。 血管网络和相似的植物脉管网络是生物学异速生长理论模型的基础, 这一模型是网络结构对网络化 系统的行为影响的最为成功的理论模型之一( [29,417,418]) 虽然就我们所知还没有有关的统计结构 ,9代谢网络的标准图有些让人误解。处于清楚和审美的原因,图上很多代谢物在不止一个地方出现,因此一些顶点对实 际上是同一个顶点。 12 的任何定量研究。 最后,提一下来自于物理科学的两个网络例子,眼镜中的自由能最小值和鞍点网络[130]以及聚合 体构造和聚合体之间相变的网络[361],这两种网络都表现出一些有趣的结构属性。Ⅲ 网络的属性随机图可能是最简单而有用的网络模型,其最早研究见于 Rapoport[346,347,378]和 Erdos 及 Renyi[141,142,143],这在论文第四节 A 有所论述。该模型中,顶点数固定为 n ,顶点间由无向边随 机相连,由此构成一个网络,网络中有1 n(n ? 1) 条可能边,每条边出现的概率为 p 且相互独立,与每 2 个顶点相连的边的条数,即顶点的度,服从二项分布或大 n 极限下的 Possion 分布。一些数学家[63,211,223]也对随机图进行了非常好的研究,所得很多结果,包括近似的和精确的结果,都得到了严格 证明。过去几年间,现实世界网络的很多有趣的特征吸引了研究者们的关注。然而,这些特征表明网络 不同于随机图。 现实世界网络具有非随机性,这一正逐步显现出来的事实指出了能够被用于操纵网络形 成的可能机制以及能够被利用来开发实现特定目的的网络结构的可能方式。 本节描述了很多不同类型的 网络所共同具有的一些特征。A 小世界效应在第二节 A 中,我们描述了 Stanley Milgram 在十九世纪六十年代所作的一个著名的实验。实验过 程中, 信从一个人传到另一个人, 仅需要很少次的步骤此信就能够到达指定的目标人。 据实验公布显示, 此步骤数大约为六次。 这一结果是小世界效应的首批直接证明之一,证实了多数网络中的大部分顶点对 似乎都经由网络中的一条短路径相连。在 Milgram 之前已有研究对小世界效应的存在提出猜测,特别是 1929 年匈牙利作家 Frigyes Karinthy 发表的短篇故事[222]。而 Pool 和 Kochen 的数学著作[341]对此 作出了更为严格的猜测, 尽管他们的著作发表于 Milgram 之后,但其在 Milgram 关注此问题之前就以预 订本的形式流通了十年。如今,小世界效应已在很多不同网络中得到了直接地研究证实。 考虑一个无向网络,定义 l 是网络中顶点对之间的平均最短距离:l=∑ 1 n(n + 1) i ≥ j 21d ij ,(1)其中,d ij 是从顶点 i 到顶点 j 的最短距离。 注意, 此平均数中包含了从每个顶点到其自身的距离 (为 0) 。 在很多情况下, 此式在数学上都是可适用的, 但并非所有的研究者都采用它。 总的来说, ( n ? 1) /( n + 1) 用 乘上 l ,由此给出 n 阶的修正量,实际中这一点常被忽略。 , 对于一个有 n 个顶点 m 条边的网络,用简单的广度优先搜索法,在物理文献中也称为“燃烧算法” 可以算出 l 的值,其时间复杂度为 O ( mn) 。表Ⅱ给出了多种不同网络 l 的值,它们均引自文献。如表所 示,所有情况下,l 的值都相当小――例如,均远比顶点数 n 要小。对于包含不止一个元素的网络而言, l 的定义式(1)存在问题。在这种情况下,存在没有路径连接的顶点对。对此,一般做法是令此顶点 对之间最短距离为无穷大,但这样, l 的值也变为无穷了。为避免这一问题,常定义此网络 l 的值为所 有有路径相连的顶点对之间的平均最短距离。 此平均数中排除了无任何路径相连的顶点对。表Ⅱ中的数 字均是以这种方式计算出的。一个可供选择并且可能更为令人满意的方法是定义 l 为所有顶点对之间的 “调和平均”最短距离,即倒数平均值的倒数:?1l ?1 =1 ∑ d ij ?1 , 1 n(n + 1) i ≥ j 213(2) 这样, d ij 的无穷值就对总数没有影响。在网络计算中这一方法仅偶尔被采用,但其可能应当得到更多 的应用。z ;顶点到顶点的平均距离 l ;在顶点度分布服从幂律分布的情况下顶点度分布的幂 α 值(如果不服从则为“-” ;有 (1) ( 2) 向图下分别给出入度和出度分布的幂值) ;由方程(3)得到的群聚系数 C ;由方程(6)得到的群聚系数 C ;第三 节 F 中的顶点度相关系数 r ;最后一栏是此网络被引为参考的次数。空白项表明此项无可得数据。对于网络发生过程的动力学而言,小世界效应具有明显的含义。例如,如果考虑信息或其它任何之 物在网络上的传播, 小世界效应表明在多数现实世界网络上这将会是一个快速的传播过程。 举例子来说, 如果一个谣言从任意一人传播到任一其他人只需要六步, 那么它的传播速度将远比在需要一百步或一百 万步的情况下快得多。 小世界效应影响到因特网上数据包从一台计算机传递到另一台计算机所需经过的 顶点数, 影响到乘坐飞机或火车的旅行者途中所需经过的中转站数,影响到一种疾病在人群中传播所需 的时间长短,以及其它。小世界效应也解释了一些著名的游戏,特别是Erdos的数字计算游戏[107]和 10 Bacon的数字计算游戏。 另一方面,小世界效应的数学含义也显而易见。如果与一个作为标记的中心顶点的距离为 r 的顶点 的个数随 r 的值指数增长――这一情况在很多网络包括随机图(第四节 A)中真实存在,那么 l 的值将 “小世界效应”这一术语有了一个更为确切的含义:如果网络平均顶点度 以 log n 的速度增长。近年来, 固定, l 的值随网络大小以对数的速度或慢于对数的速度增长,那么称此网络具有小世界效应。对数增 长的情况在很多网络模型中得到证实[61,63,88,127,164]并在大量现实世界网络中也可观察到[13, 312,313]。而在一些网络中,顶点间平均距离增长速度则低于 log n 。Bollobas 和 Riordan 提出[64], 具有幂律分布(第三节 C)的网络,其 l 的值的增长速度不比 log n / log log n 要快(参见参考文献 164) 。 并且,Cohen 和 Havlin 给出论据说明[95],实际的变化速度可能比前述情况还要慢。表Ⅱ 一些已公布网络的基本统计属性值,包括:图类型,有向或无向;顶点的总个数 n ;边的总条数 m ;平均顶点度10http://www.cs.virginia.edu/ 14 B 传递性或群聚属性从网络的传递性属性当中可以清楚的看出与随机图行为的偏离情况,该属性有时也称为群聚属性。 由于后一术语在网络研究中还有另外的含义(见第三节 G) ,所以彼此可能会发生混淆。在很多网络当 中,存在下述情况,即如果顶点 A 与顶点 B 相连,并且顶点 B 与顶点 C 相连,那么顶点 A 也极有可能与 顶点 C 相连。用社会网络的语言来说,你的朋友的朋友也可能是你的朋友。根据网络拓扑学,传递性意 指网络中存在三角形个数的情况, 所谓三角形是指网络中包含三个顶点的集合,其中每个顶点与其它两 个顶点都有边关联。此个数情况能够用群聚系数 C 来量化:C=3 × 网络中三角形的个数 , 顶点关联三点组的个数(3)其中, “关联三点组”是指包含三个顶点的集合,集合中一个顶点有边与其它两个由无向边相连的顶点 相关联(见图 5) 。 实际上, C 等于因添加第三条边而形成三角形的三点组的个数占三点组总个数比例。分子中的因 子 3 是指每个三角形在三点组中要计数三次, C 的值在[0,1]间变动。简言之, C 为平均概率,即网 络中与同一个顶点相连的另两个顶点自身相互关联的平均概率。可用下式表示:C=6 × 网络中三角形的个数 , 长度为2的路径的条数(4)其中,长度为 2 的路径是指从一个指定顶点开始的有向路径。此定义表明, C 也等于你朋友的朋友也 是你的朋友的情况出现的平均概率。 此处给出的 C 的定义被广泛应用于社会学文献,在其中它等于“传递三点组的个数占三点组总个 11 数比例” 数学和物理学文献中有关的讨论大概是始于Barrat和Weigt[40]。 。 群聚系数另一个定义也得到广泛应用,它是由 WattsStrogatz 提出的[416]。定义局部值Ci =包含顶点i的三角形的个数 , 以顶点i为中心的三点组的个数(5)对于度为 0 或 1 的顶点而言,由于分子和分母均为 0,令 C i=0 。整个网络的群聚系数就是 C i 的平均值C=1 ∑ Ci , n i(6)实际上, 此定义把计算三角形的个数占三点组总个数的比例与计算平均值两个运算过程的顺序进行了调 换,即先计算比例的平均值,而非平均值的比例。度数小的顶点,由于在方程(5)中的分母小,因此 其局部值更大,对 C 的贡献值更大,由此所得结果与在方程(3)下所得结果有非常大的不同。表Ⅱ中 对很多网络都分别计算了这两种方程下 C 的值(表中记为 C 和 C ) 。定义(3)更易于一般情况下 的分析计算,而(6)式则更易于进行计算机计算,这在数值研究和数据分析中有广泛的用途。在进行 有关此领域的论文的阅读或撰写工作之前,重要的一点是要清楚所采用的是哪一个群聚系数定义。二定 义的区别见图 5 说明。(1) ( 2)11例如,标准网络分析程序UCInet就有一个函数,可用来在任意网络中计算此量。 15 图 5 公式(3)群聚系数 C 定义的说明。此网络中有一个三角形和八个关联三点组,因此群聚系数为 3×1/8= 公式(5) ,每个个体顶点都有一个局部群聚系数,分别为 1,1,3 。由 81 13 ,0 和 0。由公式(6) ,平均值 C = 。 6 30前面提到的局部群聚系数 C i ,由于其作用很大,而在社会学文献中得到相当广泛的应用,其中 C i 被称为“网络密度”[363]。Dorogovtsev 等人[113]和 Szabo 等人[389]就 C i 对中心顶点 i 的度 k i 的依 赖情况作了研究。两个研究小组均发现,对于某些无标度网络模型(第三节 C.1)而言, C i 随 k i 增加 而减少,减少速度约为 k i 。相似的行为同样可在现实世界网络中观察到[349,350,397]。 总的说来, 无论采用何种群聚系数定义,其值都会远大于在包含相似数目的顶点和边的随机图情况 下得到的值。实际上,可以推测,对于很多网络类型而言,你朋友的朋友也是你的朋友的概率在网络规 12 模扩大时趋近于一个非零极限值,即 n → ∞ 时 C = O (1) 。相比较而言,在随机图情况下,对于一个 。由此可知,阶数 n 不同,现实网络和随机图下 C 的值 大数 n , C = O ( n ) (对任一定义 C 都成立) 也不同。 群聚系数即为网络中三角形的密度。显见之,推广到一般,会问更长的回路的密度,即长度为 4 或大于 4 的回路的密度。很多研究者对此类更高阶的群聚系数进行了研究[54,79,165,172,317]。 然而,就像积分展开的研究一样,目前为止,在此方面还没有得出清晰的理论,可以把不同阶数下的群 聚系数区分开来。如果一对顶点之间允许有多于一条的边存在,那么也存在一个低阶群聚系数,其刻画 了长度为 2 的环的密度。此系数对于有向图特别重要,因为有向图中允许存在两条方向相反的边。有向 网络中二个顶点互相指向的概率称为互性,在有向社会网络中常需计算此值[363,409]。其它情况下, 如万维网[3,137]和电子邮件网络[321]中,有时也需用到此值。?1?1C 顶点度分布回想一下, 网络中顶点度的定义, 是指与该顶点相关联的边的条数。 我们定义 p k 为网络中度数为 k 的顶点的个数占顶点总个数的比例。 p k 也等于在随机一致的原则下挑选出的顶点其度数为 k 的概率。 对任一给定的网络, p k 可用顶点度的直方图来表示。这个直方图就是网络的顶点度分布。在 Erdos 和 Renyi 所研究类型的随机图[141,142,143]中,每条边存在或不存在的概率都相同,因此,如较前所 述,图中顶点度分布服从二项分布或大 n 极限下的 Poisson 分布。多数情况下可发现,现实世界网络的 顶点度分布与随机网络截然不同。大多数网络的顶点度分布都远远偏离 Poisson 分布,明显向右倾斜, 这表明其分布的右边尾部要长且值远大于平均数。 要测量此尾部有相当的难度。虽然,理论上,只需画出顶点度的直方图即可,但实际中很少有足够 的测量方法能够用以获得此尾部中较好的统计数据。 因而, 直接画出来的直方图通常会有很多噪音存在 (例见参考文献 74,148 和 343 中之直方图) 。为避免这一问题,可采用二种方法。 方法一是构建一直方图,图中直方的大小随顶点数指数增长。例如,令前几个直方覆盖顶点度数范 围为 1,2-3,4-7,8-15,等等。然后,按直方宽度划分每个直方中样本的数目,从而使计算标准 化。这种构建直方图的方法经常用于对数顶点度刻度,使得直方图的宽度显得平滑,由于靠近尾部时的 直方会逐渐变得更宽,从而使统计数据的噪音问题得到控制,然而只要 p k 减少快于 k 程度上问题将依旧存在,这在分布可被积分的情况下一定会出现。 给出顶点度数据的另一个可供选择的方法是,采用累加分布函数?1 ?1,那么在某种12一个例外是如前所述的具有 C i~ ki的无标度网络。对此类网络,当 n→ ∞ 时公式(3)趋近于零,而公式(6)仍非零。 16 Pk =k ′= k∑p∞k′,(7)即为顶点度大于或等于 k 的概率。采用(7)来作图的优点在于,考虑了所有的原始数据。当我们按传 统的方法通过画直方来构建直方图时, 落入同一直方内的数据点的值间所存在的差异都被丢失。累加分 布函数则避免了这一问题。同样,累加分布也控制了尾部噪音。而缺点在于,这样得到的图本身并没有 直接给出顶点度分布的图像,图上邻近点在统计上是非独立的,这一点吻合了数据的迷惑性。 针对第二节中描述的众多网络,图 6 中给出了其顶点度的累加分布。如图所示,所有分布均确实是 右倾的。其中很多分布在其尾部都服从幂律:即对某些常数幂 α , p k ~ k 律分布在累加分布中也存在,所不同的是幂为 α ? 1 ,而不是 α :∞ ?α。注意,如幂律一样,幂Pk ~k ′= k∑k′ α?~ k ?(α ?1) ,?k / κ(8)其它有一些分布,其尾部服从指数分布: p k ~ e 并且指数相同:∞ ∞。同样的,在累加分布中也可给出指数形式分布,Pk =k ′= k∑pk′~k ′= k∑e?k ′ / κ~ e ?k / κ ,(9)这使得幂律分布和指数分布特别易于实验抽样观测,只需分别在对数刻度尺上(针对幂律)或半对数刻 度尺上(针对指数)构画相应的累加分布。图 6 六个不同网络的累加顶点度分布。图中水平轴为顶点度 k (在有向引文网络和万维网下为顶点入度) ,竖轴为顶点 度的累加概率分布,即度数大于或等于 k 的顶点的个数占顶点总个数的比例。这些网络分别是:(a)反映数学家合作关 系的网络[182];(b)反映由 ISI 分类的从 1981 到 1997 年之间所有论文的引文情况的网络[351];(c)1999 年左右的包含 30 亿个顶点子集的万维网[74];(d)自治系统水平的因特网,1999 年 4 月[86];(e)美国西部电力网[416];(f)在酵母菌 S.Cerevisiae 的新陈代谢过程中蛋白质的相互作用网络[212]。其中,网络(c)、(d)、(f)顶点度服从幂律分布,表现在 其图像在双倍对数刻度尺上近似呈现出直线形状;网络(b)在尾部上服从幂律分布,但在小度数上明显偏离幂律分布;网 络(e)顶点度服从指数分布(注意(e)中采用的是一次线性对数刻度) ;网络(a)的顶点度分布服从某种类型的截平幂律分 布,或者可能是两个具有不同幂的幂律分布对于其它类型的网络而言,其顶点度分布更为复杂。例如,对于二部图(第一节 A) ,每一种顶点 类型分别有一个顶点度分布。对于有向图,每个顶点都有一个出度和入度,因此其顶点度分布也成为两 个变量的函数 p jk ,代表入度为 j 且出度为 i 的顶点的个数占顶点总个数的比例。在对诸如万维网的有 向图的观察研究中,研究者通常仅给出入度和出度各自的分布[14,34,74],即对 p jk 基于指标 i 或指17 标 j 进行求和得到的分布。 然而, 很多存在于联合分布当中的信息因此而丢失。 在一些网络中发现[321], 入度和出度具有非常强的相关性,这表明,我们应当更多地收集联合分布当中包含的信息,而不仅是对 其作一般性的关注。 1.无标度网络 服从幂律分布的网络是文献研究关注的焦点[13,120,387]。有时也称其为无标度网络[32],虽然 13 这仅指它们的顶点度分布是无标度的 。在网络的其它属性中,标度能够存在并且通常确实是存在的。 最早公布的有关无标度网络的例证可能是Price的科学论文引文网络(见第二节B) 。此网络中,他用了 幂 α 为 2.5 到 3 的一个值。随后的论文中,他又用了一个更为准确的值 α =3.04[344]。他还有一个发 现,即此网络的顶点出度(每篇论文中引用的目录条目数)服从幂律分布,虽然对于这一发现后来有文 章提出了质疑[396]。最近一些文献显示,顶点度的幂律分布在很多的其它网络当中也可观察到,突出 的有其它的引文网络[351,364]、万维网[14,34,74]、因特网[86,148,401]、新陈代谢网络[212, 214]、电话呼叫图[8,9]以及人类性接触网络[218,266]。图 6 给出了其中一些网络的顶点度分布。 顶点度分布其它常见的函数形式包括指数形式,如在电力网[20]和铁路网[366]中所见,以及带指 数截点的幂律形式,如在电影演员网络[20]和一些协作网络[366]中所见。同样,值得注意的是,虽然 网络顶点度分布在整体上可能呈现一种特定形式, 但此网络中的指定子网的顶点度却可具有其它的分布 形式。例如,万维网的顶点度分布整体上服从幂律分布,但域中的顶点度分布却服从单峰分布。 2.最大顶点度 最大顶点度对于网络上的一些计算来说是重要的 网络中顶点的最大度数 k max 一般依赖于网络大小。 (例见第八节 C.2) 。在无标度网络的研究中,Aiello 等人假设[8]最大顶点度近似等于一个值,在此值 上,平均来说图中具有此度值的顶点个数少于 1,也即此值满足 np k = 1 。举例而言,对于幂律分布p k ~ k ?α ,有 k max ~ n1 / α 。然而,这一假设得出的结果易产生误导。很多情况下,网络中存在有顶点,其度数要远大于此值,这一点 Adamic 等人曾做过讨论[6]。 给定一个特定的顶点度分布 (并假设所有顶点都从此分布中作独立抽样观察, 这在现实网络中可能 不成立) ,则恰好有 m 个度数为 k 的顶点同时没有度数大于 k 的顶点的概率为 ? ? 中 Pk 为累加概率分布,公式(7) 。因此,图中最大顶点度为 k 的概率 hk 为:n ?n? m hk = ∑ ? ? p k (1 ? Pk ) n ? m = ( p k + 1 ? Pk ) n ? (1 ? Pk ) n , ? ? m =1 ? m ??n? m ? p k (1 ? Pk ) n ? m ,其 ? ? m?(10)并且,最大顶点度的期望值 k max =∑kkhk 。对于 k 增大和减小, hk 都趋近于零,和式的值受与最大值接近的项的控制。因而,在多数情况下, 最大顶点度期望值的更为接近的近似值由众数值给出。计算导数 dPk / dk = p k 并观察可发现,当(dp k ? p k )( p k + 1 ? Pk ) n ?1 + p k (1 ? Pk ) n ?1 = 0 , dk(11)13“无标度”一词是指任一函数形式这既是幂律形式,因为 是相同的。f (x) ,它在自变量 x 增大的情况下,在一个倍增因子范围内保持不变。实际上, f (ax) = bf ( x) 仅有一个解。因此,对于我们要达到的目的而言, “幂律”和“无标度”的涵义18 或 k max 是下式的解dp k 2 ? ? np k , dk(12)时,hk 取最大值, 此处我们 (相当肯定地) 假设, 对于 k ≥ k max ,n p k 为充分小, np k && 1 且 Pk && 1 。 有 例如,若尾部的 p k ~ k?α,那么我们发现k max ~ n1 /(α ?1) ,(13)如 Cohen 等人的论文[93]所显示,由一个简单的经验法则可以导出同样的结果,即最大顶点度大致为解 nPk = 1 所得的 k 值。然而要注意的是,服从幂律分布的顶点度分布在其尾部上的波动非常大,这一点 在 Dorogovtsev 和 Samukhin 的论文[129]中有所显示。 Dorogovtsev 等人还指出[126],公式(13)对于利用在第七节 B 中所述的 Barabasi 和 Albert 的 “偏好连接” 过程[32]所形成的网络而言同样成立。 有关这一情况的详细数值研究可见 Moreira 等人的 文章[295]。D 网络弹性与顶点度分布有关的网络属性是网络在顶点被删情况下的弹性, 这也是文献的研究热点。我们所考 虑的大部分的网络,功能都依赖于其关联性,即依赖于顶点对之间路径的存在。如果网络顶点被删,这 些路径的标记长度将增加,最终使顶点对成为非关联的,而他们之间经由网络的通讯将被中断。网络弹 性水平因这样的顶点删除而发生改变。 同样,也存在很多不同的顶点删除方式,对于这些被删顶点,不同的网络也显示出不同的弹性度。 例如,可以从网络中随机删除顶点,或者删除一些指定类别的顶点,如那些度数最大的顶点。网络弹性 对于传染病学的研究特别重要, 例如, 在接触网络中 “删除” 顶点可以相当于是个体为预防疾病而接种。 由于接种不仅可以阻止被接种的个体感染疾病, 同时还可以破坏个体之间供疾病传播的路径,它所产生 的影响要比人们开始所想到的更为深远。 并且,对不同的接种策略的功效作仔细考虑能够为公众健康带 来实质性利益。 近年来,Albert等人的著作[15]激起了对网络弹性的研究兴趣,他们以两个网络为例,研究了顶点 被删的影响,一个是包含 6000 个顶点的自治系统水平的刻画因特网拓扑的网络(见第二节C) ,另一个 是拥有 326000 张页面子集的万维网。可以观察到,二者的顶点度分布在形式上均近似地服从幂律分布 [14,74,86,148,401](第三节C.1) 。他们还测出了顶点到顶点的平均距离,无论顶点删除过程是随 14 机的还是对度数最大的顶点施行逐步删除,其都是被删顶点数的函数 。图 7 给出了他们关于因特网的 研究结果。他们发现,对于二种网络而言,随机的顶点删除几乎完全不会对距离产生影响,也即此二种 网络对随机顶点删除具有高度弹性。直觉上看,这是合理的,因为这些网络中大多数的顶点其度数都较 小, 所依赖的只是其它一些顶点之间所存在的很少的路径,因而删除这些顶点几乎不会给通讯带来实质 性的影响。另一方面,当删除是针对度数最大的顶点进行时,会发现其具有破坏性影响,顶点到顶点的 平均距离随被删顶点个数比例的增大而急剧增加,并且,要破坏经由网络的本来的全部通讯,只需删除 一部分顶点即可。Albert等人把这一结果表述为网络顶点故障或网络顶点破坏。他们提出,因特网(和 万维网) 对于网络中的随机顶点故障表现出很强的弹性,但在其最大度顶点受故意攻击的情况下却极易 被破坏。在删除度数最大的顶点的过程中,Albert等人每删除一个顶点就对顶点度进行重新计算。多数研究此议题的其它学者 们采用的是一种稍有不同的顶点删除策略,即按照所有的删除进行之前的网络顶点度初始值的循序进行顶点删除。 1914 图 7 自治系统水平的刻画因特网拓扑的网络中,在逐个删除顶点的情况下顶点到顶点的平均距离。如果顶点删除过程是 随机的(图中方形) ,则距离只会有非常小的增加;但如果是对度数最大的顶点施行逐步删除(图中圆形) ,则距离出现 急剧增加。摘自 Albert 等人的文章[15]。Broder 等人在万维网图的许多更大的子集合上独立研究,发现了与 Albert 等人相似的结果[74]。 然而,有趣的是,Broder 等人就他们的研究结果作出了一个完全相反的解释。他们发现,为了破坏万 维网的连通性,必须删除所有度数大于 5 的顶点,这给网络造成的攻击性似乎很猛烈,此处假定一些顶 点有上千条关联边。因此,他们得出结论认为,网络对有目标的攻击具有很强的弹性。然而,事实上, 他们所得的结果之间乍一看并不存在冲突。因为,万维网的顶点度分布高度倾斜,度数大于 5 的顶点在 所有顶点中仅占一小部分。 在此之后, 有很多学者对其它网络的弹性问题展开探讨,总体研究结果似乎都与因特网和万维网情 况下所得结果一致。 多数网络对于随机的顶点删除都表现出鲁棒性,而对于以最大度顶点为目标的删除 却表现出相当弱的鲁棒性。Jeong 等人研究的是新陈代谢网络[212],Dunne 等人研究的是食物网[132, 133],Newman 等人研究的是电子邮件网络[321],很多学者则是对模型网络的弹性进行研究[15,81, 93,94,200]。这些我们在论文的后续章节中都有更为详细的讨论。有关现实世界和模型网络的弹性研 究,特别全面的要数 Holme 等人所作的工作[200]。他们不仅考虑了顶点删除的情况,还考虑了边删除 的情况,此外还考虑了一些基于所谓的“介中性”的顶点选择策略(见第三节 G 和 I) 。E 混合模式深入挖掘网络结构的统计学属性, 你会问:二个顶点何以成为顶点对?多数网络都至少包含一些不 同类型的顶点,并且顶点之间有边相关联的概率常依赖于顶点的类型。例如,在刻画生态系统中物种扑 食关系的食物网中(第二节 D) ,顶点代表植物、食草动物和食肉动物。植物和食草动物之间存在很多 边相关联, 食草动物和食肉动物之间存在的关联边更多,但在食草动物之间或在食肉动物和植物之间却 几乎没有关联边。就因特网而言,Maslov 等人提出[275],网络结构存在三种种类的顶点,每一种类中 包含的顶点都很多: 因特网骨干线和主干线上的具高度关联性的顶点, 作为因特网服务终端用户的顾客, 以及联系两者的因特网服务供应商(ISP) 。同样,终端用户和 ISP 之间以及 ISP 与主干顶点之间联系很 紧密,而 ISP 之间以及主干顶点和终端用户之间却几乎没有联系。 在社会网络中,这种选择性关联称为同类混合或同源相似性,它得到了广泛的研究,如同其在传染 病学当中一样。“同类匹配”一词也见于生态学文献,特别是指动物中的配偶选择。 ( )同类混合在社会 网络中的一个典型的例子是按人种混合。表Ⅲ给出了对加州地区 San Francisco 城的 1958 名夫妇进行 研究的结果。在一些不同性质当中,此研究选择记录了每对夫妇中参与研究人的(自我认同的)人种。 如表所示, 参与人似乎更偏好于从和他们同人种的人当中选择配偶,这一点也被认为是在很多社会网络 中普遍存在的现象:我们更倾向于和那些在某些方面与自己相似的人交往。20 表Ⅲ 在 Catania 等人的研究中[85],对所有夫妇按夫妇中的任一研究参与人的人种进行列表分类。摘自 Morris 的文章 [302]。同类混合可用“同类性系数”来量化,它可从两种不同的方式来定义。令 Eij 为网络中连接类型 i 顶 点和类型 j 顶点的边的条数( i , j =1…N),令 E 为以 Eij 为元素的矩阵,如表所示。我们定义标准混 合矩阵为e=E E,(14)其中 X 为矩阵 X 所有元素之和。 元素 eij 为类型 i 顶点和类型 j 顶点之间关联边的条数占关联边总条数 的比例。同样,你会问及条件概率 P ( j | i ) ,即在顶点属于类型 i 的条件下此顶点在网络中的邻接点属 于类型 j 的概率, P ( j | i ) = eij /∑ejijij。这些量均满足标准化条件∑eij= 1,∑ P( j | i) = 1 ,j(15)Gupta 等人指出,同类混合可用下面的系数来量化Q=∑ P(i | i) ? 1iN ?1,(16)该量可取之处在于,对于完全同类的网络此系数为 1,对于随机混合的网络此系数为 0。此系数在文献 中被广泛采用,但是它有两个缺点[318]: (1)对于非对称的矩阵,如表Ⅲ所示矩阵, Q 依赖于我们置 水平轴为男性或是女性的情况分别有 2 个不同的值,目前还不清楚两个值当中哪个值对于网络而言是 “正确”值。 (2)无论每种类型包含的顶点个数有多少,类型对于式(16)的影响都是无差别的,这样, 在每一种类型包含顶点个数不同的情况下所得的 Q 的值易于产生误导,而这种情况经常会出现。 避免这些问题的一个可供选择的方法是定义同类性系数为r=Tre ? e 2 1 ? e2,(17)同样,对于随机混合的网络此系数为 0,对于完全同类的网络此系数为 1。但它的值不会随矩阵转置而 改变,并且是顶点而非顶点的类型对于 r 的值的影响为无差别的,因此包含顶点个数少的顶点类型对 r 的值的贡献也相应小。对表Ⅲ数据, r =0.621。 同类混合的另一类型是按标量特性混合,如年龄或收入。同样可发现,人们通常更偏好于和自己同 年龄和收入的其他人进行交往,虽然,像人种这一特性一样,年龄和收入无疑也可能是其它交往驱动力 (如文化差异)的代理品。举例而言,Garfinkel 等人[170]和 Newman[318]分别对未婚情侣和已婚夫妇 进行了数据分析, 发现在伴侣年龄之间有很强的相关性。 通过计算年龄这一标量特性的相关系数可以量 化按此标量特性进行的混合。 理论上,依据向量特性进行同类混合也是可能的。例如,个体所处地理位置可能会影响个体间相互 认识的趋向。地理位置就可视为是包含两个分量的向量,个体即按这些向量的值进行同类混合。21 F 顶点度相关性依据顶点的标量特性进行同类混合的一个特例是按顶点度混合, 也即通常所说的顶点度相关性。网 络中高度数顶点是偏向于与其它高度数顶点相关联, 还是偏向于与低度数顶点相关联?实际证明,在一 些网络当中,这两者情形都存在。按顶点度同类混合特别有趣,因为顶点度本身是图拓扑的一个属性, 顶点度相关性可以产生一些有趣的网络结构效果。 几种不同的量化顶点度相关性的方法已经被提出了。Maslov 等人简单地构画出了边上任一端顶点 的度数的二维直方图。他们将结果在蛋白质相互作用网络和因特网下显示出来。Pastor-Satorras 等人 给出了此状况的一个更为简洁的刻画[331, 401], 他们在对因特网的研究中计算了一个顶点的网络邻接 点的平均顶点度数,它是该顶点的度数 k 的函数。当网络被同类混合时它给出一条随 k 递增的单参数曲 线。实际上,对因特网而言,此曲线随 k 递减,这一情形我们称为非同类性。Newman 进一步简化了计 算方法,只需计算边上任一端顶点的度数的 Pearson 相关系数即可。此方法给出的是一个唯一数,它在 同类混合网络下为正,在非同类混合网络下为负。表Ⅱ给出了很多不同网络下的结果。一个有趣的发现 是,基本上所有检测的社会网络都是同类混合网络,而其它类型的网络(信息网络、技术网络、生物网 络)都是非同类混合网络。这一结果如何解释还不清楚,甚至连是否存在一个唯一的解释也不清楚(或 许它根本不能解释) 。G 群落结构很多文章[363,409]认为,多数社会网络表现出“群落结构” ,即顶点组中有密集的关联边,而组 与组之间关联边的密集程度则较低。实际中常碰到的是,人们确实会按兴趣、职业、年龄和其它等方面 的不同而分为不同的群体,第三节 E 中讨论过的同类混合现象表明这一情况确实可能存在。 (对网络而 言,可能出现存在同类混合而不存在群落结构的情况。例如,当按年龄或其它标量进行同类混合时,这 种情况就会出现。具有这种结构类型的网络有时也称为“分层”网络。 ) 图 8 给出了来自Moody一项研究[291]中的美国学校儿童的友谊关系网络图 。 此图是用 “弹簧嵌入” 算法产生的,即在顶点间置入直弹簧,利用一阶能量最小化松开此系统。没有确定的理由认为这个非常 简单的算法能够揭开与此网络有关的特别重要的秘密, 但发现此网络似乎具有很强的群落结构, 事实上, 这一点可以从图中清楚的看出。此外,当Moody按照个体所属的人种给顶点进行染色后,如图所示,立 刻可以清楚看出, 网络的一种主分割就是按个体所属人种的分割,理所当然这也是促使此案例中的群落 结构形成的驱动力。 (图中可见的另一种主分割是在按初中和高中进行的分割,也即存在于美国教育系 统中的年龄分割。 )15图 8 美国学校儿童的友谊关系网络。友谊关系的确认是经询问参与人而定的,由于 A 可能说 B 是他的朋友但 B 却不认为 A 是他的朋友,因此网络是有向的。顶点按人种标色,如图中所标注的。图中从左到右的分割明显的是按个体所属人种 进行的分割。从上到下的分割是按初中和高中进行的分割,也即按年龄进行的分割。图由 James Moody 提供。 引用文献中并没有此图。但在网址http://www.sociology.ohio-state.edu/jwn/ 上有此图以及同类研究的其它很多 图。 2215 令人感兴趣的是我们发现,其它类型的网络,如表Ⅱ中所列,也表现出相似的群落结构,这在实际 中有重要意义。例如,可以想象,将引文网络分割为若干群组,分别代表特定的研究兴趣领域,对此现 象已有研究者投入了大量精力进行研究[101,138]。同样,在万维网中,群落可能反映的是网页的主题 分类;新陈代谢网络、神经网络或软件网络中,群落可能代表的是功能单元;食物网中,群落可能代表 的是生态系统中的子系统;如此等等。 传统上,从网络中提取群落结构的方法是聚类分析[147],有时也称为等级群聚 。此方法中,作为 研究对象的网络中的顶点对被赋以“关联强度” 。一般而言,在包含 n 个顶点的网络当中, “关联强度” 是被赋予其中每一对顶点,这样的顶点对可能有161 n(n ? 1) 个,而非仅赋予那些有边相连的顶点对,虽 2然有不同观点提出,不是网络中每一对顶点都要赋以一个“关联强度” ,其中可假设无边相关联的顶点 对的关联强度为 0。然后,从 n 个两两之间无边相关联的顶点出发,按顶点到顶点的关联强度的递减顺 序添加边。我们可在此过程中的任意点上停止,并对由目前为止所添加的边形成的组元结构进行观察。 这些组元即构成了此过程阶段上的群落 (或 “聚类”。 ) 当所有的边都已添加, 所有的顶点都相互关联时, 则仅有一个群落存在。整个过程可以用顶点集合并运算的树或树状图来表示,其中,任一阶段上的群落 17 相应的是树的水平切割,见图 9 。图 9 刻画十个顶点的等级群聚的树状图。树状图的水平切割,即图中虚线,把顶点分割成一系列群落,此图中个数为 5。根据关联强度的很多不同定义,聚类的形成是可能的。合理的选择包括,测量顶点到顶点的赋权距 离、求最小割集大小(即最大流量)[7]以及计算顶点间赋权路径条数。近来,有很多研究者成功地应 用了基于“边介中性”的方法,即对网络中的每条边,计算有多少条最短路经过这条边[171,185,197, 422]。 结果似乎显示, 群落结构是网络普遍具有的属性, 至少这对于社会网络和生物网络而言是成立的, 虽然发现有某些食物网以任何简单的方式都不能够分裂形成群落。 (食物网不同于其它网络,可能是因 为他们的密集性: 平均顶点度随网络规模扩大大致呈线性增加,而不是像在多数网络中一样将保持为常 数[132,273]。同样,新陈代谢网络也是如此[P.Holme,私人交流]。 ) 不要将网络群聚和数据群聚的技术相混淆,后者是一种探测高维数据空间中数据点分组的方法 [208]。然而,这两者之间确实有一些共同之处,其算法可以相互通用。例如,通过给在空间上靠近的 数据点之间置边, 可以把高维数据转化为网络, 然后, 网络群聚算法就可以应用到此网络当中去。 然而, 权衡一下通常会发现, 那些特别为数据群聚而设计的算法要优于为网络群聚而设计的算法, 反之也成立。 在有关社会网络的文献当中,对网络群聚所开展的研究很大程度上是以所谓的块模型为背景[71, 419],其本质上就是按某个标准把网络分割为群落或块。社会学家对结构等价表现出特别的关注。称网 络中两个顶点是结构等价的,如果它们有完全相同的邻接点。严格的结构等同很少出现,但近似的结构 等同是如前所述的等级群聚方法的基础。 另一个与此处所讨论问题相关但又有所不同的有关群落结构的问题见于 Flake 等人的研究[158]: 若从已知网络中抽出一个顶点, 我们能否确定此顶点所属的群落?很明显, 用于解决此问题的算法对于 搜索网络,例如万维网和引文网络,都有实际的价值。Flake 等人基于最大流方法给出了一个算法,此 算法的应用似乎非常成功,至少在万维网上是如此。16 17不要将其与第三节B中介绍的群聚一词的完全不同的用法相混淆。 因为某些原因,传统上这些树的顶部画的是“树根” ,其底部画的是“树叶” ,这与实际中树的结构秩序是不同的。 23 H 网络导航Stanley Milgram 的著名的小世界实验(第二节 A)表明,社会网络中明显远隔的个体之间存在有 短路径。此实验过程中,信被一个接一个人的传递,直到被传到指定的个体为止。然而,从这一实验中 还可以得到另外一个显然是为 Milgram 所忽略的结论,它在 2000 年被 Kleinberg 所指出[238,239]。 Milgram 的结果显示网络中存在短路径,但同时结果也显示普通的人擅于发现这些短路径。细思一下, 这也许是一个比短路径的存在更为令人吃惊的结果。Milgram 研究的参与者这一把他们与目标人相联系 的网络没有特别的了解。多数人只知道他们的朋友是谁,对于他们朋友的朋友是谁也可能有一些了解。 然而,结果证明仅通过少数步骤就将信息传递到远距离的目标个体是可能的。这表明,网络结构存在某 些奇特之处。以随机图为例,正如 Kleinberg 所指出的,顶点之间的短路径是存在的,但是如果只给出 人们在现实状态中所拥有的信息,那么没有人能够发现这些短路径。有文章提出[5,6,415],如果构 建一个易以和社会网络同样的方式进行导航的人工网络是可能的, 那么这些网络可被用来构建有效的数 据库结构或更好的点对点计算机网络。I 其它网络属性除了前面章节中被重点研究的网络属性外, 另外有一些网络属性也引起了人们的注意。在一些网络 中,最大组元的大小是一个重要的量。例如,在类似因特网的通信网络中,最大组元的大小代表着网络 中能够完成通信的最大部分所占的比例,因而它是网络工作有效性的一个度量[74,81,93,94,125, 323]。最大组元的大小经常被等同于图论中的“巨组元”概念,尽管从技术上讲两者仅仅是在大 n 极限 下相等。有时也会用到网络中第二大组元的大小这一个量。巨组元最初形成时有一个密度存在,在此密 度之上的网络中,最大组元要比第二大组元大很多(第四节 A) 。 Goh 等人对网络中顶点的“介中向心性”的分布进行了统计学研究[175]。顶点 i 的介中向心性是指 其它顶点间通过顶点 i 的最短路径的条数[161,363,409]。Goh 等人指出,对很多网络而言其介中性遵 循幂律,并提出根据这个幂律的指数可将网络分成两类。介中向心性也可看成是网络弹性的一种度量 [200,312],它告诉我们,当从网络中删除一个顶点时会有多少条最短路径的长度变长。Latora 和 Marchiori 考虑的是一个顶点和其它所有顶点间的调和平均距离,他们称为这个顶点的“效率”[260, 261]。和介中向心性一样,这个量也可看出是网络弹性的一种度量,它表明了删除一个顶点会对路径长 度产生多大的影响。有很多研究者还研究了网络 Laplacian 图(或邻接矩阵)的特征值图谱和特征向量 [55,146,151],它可以告诉我们网络的扩散或振荡模式以及顶点的向心性[66,67](参见第八节 C.1 中有关网络搜索策略的讨论) 。 Milo 等人提出了一种新的分析方法[284,368],即从完整网络中分辨出反复出现的基图――小的 子图。他们把这一方法应用到基因调节网络、食物网、神经网络和万维网中,发现每一种情况下的不同 基图。他们也对网络中这些基图的可能功能做出建议。例如,在调节网络中,他们确定了存在于系统中 的具有特定转换功能的一般子图,如门和其它的前馈逻辑运算。Ⅳ随机图各种模型网络的数学性质是我们研究的主要问题, 当前研究的模型分为四种,这四种模型我们将依次予 以介绍。本节我们着手讨论Rapoportd [346,378] , Erd?s和Rényi[141, 142]的传统Poisson随机图,特别是 Molloy和Reed[287, 288]等的一般随机图。在第五节中,我们将分析虽然有时被忽视但却非常有用的 Markov图和它们的一般形式,指数随机图或p*模型。在第六节中,我们将研究Watts和Strogatz[416]的小 世界模型和它的一般形式。 在第七节中我们将讨论增长网络模型, 特别是Price[344], Barabási和Albert[32] 的模型和它的一般形式。最后在第八节中,我们将讨论网络中产生的大量的过程模型,像搜索和导航过 程,网络传输和流行病学。24 构造一个大的随机网络模型的第一次认真的尝试是 Rapoportd 和其合作者 [346,378] 提出的“随 机网” ,这个随机网在 10 年后又被 Erd?s 和 Rényi[141]重独立地重新发现,他们对它进行了极其认真的 研究,并把它命名为现在许多人都比较熟悉的随机图。必要时我们又把它称为“Poisson 随机图” ,以便 和其它的随机图模型区别开来,有时它又被称为“Bernoulli 图” 。在这一节我们将看到,由于随机图不 适用于描述现实世界网络的一些重要性质,所以在各方面已经被扩展,特别是随机图的 Poisson 度分布 不同于 Sec Ⅲ.C 中 Fig.6 的高偏度分布,模型扩展允许其它的度数分布,从而产生了称为一般随机图、 或具有任意度分布的随机图、或配置模型的模型类型。 首先我们讨论 Poisson 随机图,然后是它的一般形式,更详细的关于 Poisson 随机图的论述可以参 考 Bollobás[63],Janson et al.[211]和 Karoski[223]。A Poisson 随机图Solomonoff和Rapoport[378],Erd?s和Rényi[141]分别提出了一个非常简单的网络模型,该模型假定 18 有n个顶点, 每一对顶点连接(或非连接)的可能性为p (或 1-p) ,这样就定义了一个的模型, Erd?s和Rényi m M-m 称为Gn,p.。从技术的角度来看,Gn,p是所有具有m条边,且m条边出现的概率是p (1-p) 的图的集合, 这里M=1/2n(n-1)是最大可能边数。Erd?s和Rényi还定义了其它的称为Gn,m的相关模型,该模型是具有n 个顶点,m条边的图的集合,每一个可能图出现的概率是相同的19。这里我们将讨论Gn,p,但是许多结果 可以直接用在Gn,m中。 就像 Erd?s 和 Rényi 在 1960 年的系列论文[141,142,143]中所论述的那样,随机图的许多性质在大 图规模有限的约束下是可解的。特别是大 n 的约束使平均度数 z=p(n-1)保持常数的情况下,由于边的存 在或不存在是独立的,模型显然有一个 Poisson 度分布。所以一个顶点存在度数 k 的概率为:该式在大 n 和固定 k 的约束下近似相等成立,这是命名为 Poisson 随机图的原因。 随机图的结构随着 p 值的变化而变化, 边将顶点连接在一起形成了组元, 也就是连通的顶点的 (最 大) 子集。 不管是 Solomonoff 和 Rapoport, 还是 Erd?s 和 Rényi 都说明了随机图最重要的性质是相变 (phase transition) ,即从一个具有少量边和小组元的(有呈指数分布的 size 和有限的平均 size) ,低密度、低 p 的状态到一个高密度、高 p 状态,其中所有顶点中的相当大部分顶点(i.e.O(n))被连接在一个巨组元 中,其余的顶点构成一些较小的组元,也具有指数分布的 size 和有限的平均 size。 我们能够通过下列简单的推导计算出巨组元的期望大小,设u是图中不属于巨组元的顶点所占顶点 总数的比例, 它表示的是一个顶点被随机从图中选中且不在巨组元中的概率, 一个顶点不属于巨组元的 概率等于顶点的所有网络邻居均不属于巨组元的概率,如果顶点有度数k,则表示为uk。求这个表达式 在k概率分布下的平均数,Eq.(18), 于是我们发现在大图size 极限条件下,u有如下的关系(自恰性)成 立:被巨组元占据的图的比例 S 可以表示为 S =1-u, 所以:18 根据是否允许自边(即将一个顶点与自身相关联的边),可以对模型稍作变化,但是在大n极限下对于模型的平均性质只会 有可以忽略的影响. 19 那些熟悉统计力学的人会注意到两个模型的相似点,所谓的canonical 和grand canonical ensembles.事实上,的确是相似的, 可以定义Helmholta 和Gibbs自由能的等价形式,是图属性的矩的生成函数,与关于场p和序参数m的拉格朗日变换有关.25 通过下一节给出的一个稍微复杂的推导,我们能够得出一个任意选定的顶点属于组元(对于非巨组元) 的平均 size&s&是:S, &s&这两个量的形式可以参见Fig.10.,公式(20)是先验的无封闭解,但是显然可以看出:当z&1 时它的唯一非负解是S =0, 而当 z&1 时,有一个非零解,该解就是巨组元的大小,相变产生在z=1 的时 刻,这也是&s&的分叉点,这个性质将被熟悉相变理论的人所认识:S在相变中起到了序参量的作用, &s&起到了序参量波动的作用。由S~(z-1)β和&s&~???z-1?-??γ定义的,相应的临界指数取值为β=1 和γ=1。精确 地讲, 在z=1 的相变有一个 “double jump” ――图中最大组元的平均size以O(n2/3)发生变化, 而不是在z&1 时的O(n)。在相变中的组元符合具有指数?(2/5=??或 3/2 如果询问一个任意选中的顶点属于哪一个组元) 的幂律size分布。我们将在下一节讨论更普遍的“配置模型”的这些结果。图 10针对 Poisson 随机图,组元的平均大小(实线) ,如果有巨组元存在的话并不包括巨组元;巨组元的大小(点线) 。根据公式(20)和(21)。随机图能够很好地反映现实世界网络的一个主要性质, 即在第三节讨论过的小世界效应。 在随机图 d l 中离一个顶点距离为l的邻居顶点的平均数目是z ,所以需要覆盖整个网络的d值是z ≈n,因此一个穿过 网络的特殊距离是l=log n/log z, 满足在第三节的A中给出的小世界效应定义。 例如在参考文献[61]和[63] 中可以看到这种效应的精确结果。然而在其它方面,随机图的性质不匹配现实世界网络的性质,它有一 个低的群聚系数:不管他们是否有一个公共的邻居,顶点连接的可能性为p,因此C=p, ,而且在大系统 -1 size[416]取极限下n 会趋向于零。模型不象Fig.6 的分布,它还服从Poisson度分布。它完全具有随机混 合模式,在相邻顶点的度数之间没有相互关系,没有相通结构,在随机图中使用local 算法[238,239, 314,318,401]的导航是不可能的。简而言之,它仅起到了稻草人的作用,在现实世界的模拟中未被采 用。 但是, 我们许多网络的研究来源于随机图的研究, 特别是相变和巨组元的存在是这篇论述中提到的 一些工作的主要思想。我们经常提及的网络的巨组元,实际意味着最大的组元,我们经常提及的较小组 元的大小,是指比最大的组元小的多的组元。许多更高级模型中的巨组元相变将在下面的节次中讨论, 所有这些思想都开始于 Poisson 随机图。B 一般随机图随机图可以通过各种各样的方法加以扩展,从而使它们更加真实。真实的图的最简单的一个性质是 非 Poisson 度分布,这就是所谓的“配置模型” ,我们将详细描述这个模型。在第四节的 B.3--第四节的 B.5 我们进一步描述随机图的一般形式,加入其它一些性质。26 1.配置模型 在下列模型定义中,我们规定一个度数分布pk,pk是在具有度数k的顶点在网络顶点总数中的比例。 我们从这个分布中选择一个度数序列,它是一个顶点度ki的n个值的集合,i=1…n。这个序列可被认为是 给图中每个顶点i 分配ki个“stubs”或“spokes”,用来通过边与这个给定的顶点连接。我们从网络中随 机地选择一对stubs,并把它们连接起来。很容易证明[287]这个过程可以产生图的每一种可能拓扑结构, 这些图按照给定度数序列,并具有相同的概率20。配置模型被定义为通过这样的过程产生的具有相同权 重的图的集合21。 1970 年以来,许多学者[46,47,60,88,89,268,287,288,323,425]对配置模型进行了大 量的研究工作。通过pk,拥有一个巨组元[287]的精确的条件已知,组元的期望的大小已知[288],在相 变的上边和下边非巨组元的平均大小也是已知的[323],并且各种其它性质也可以计算,例如,离中心 顶点给定距离的顶点的平均数目以及点到点的距离等[88]。这里我们使用Newman et al.[323]生成函数, 给出主要结论的简单推导,相同结论的更严谨的内容可参见Refs.88,89,287,288. 掌握配置模型的两个要点是:第一,pk在大图size取极限的条件下,是图的顶点度数分布,但通过 一条随机选中的边到达的顶点的度数没有在pk中给出,因为有k 条边到达一个度数为k的顶点,那么我 们到达一个度数为k的顶点的概率是到达度数为 1 的顶点的k 倍,所以对沿一条随机选中的边可到达的 顶点的度数分布是kpk。在许多情况下,我们对有多少边离开一个顶点感兴趣,不包括到达这个顶点经 过的边。在此,定义excess度数等于顶点度数减 1。在配置模型中,excess度数有一个分布qk这里,z=∑kkpk像以前一样是网络的平均度数。 第二,在图的一个小组元中发现一个环的机会服从n-1,非巨组元的顶点数目是O(n-1),因此任何对 顶点之间有多于一条路径的概率是O(n-1)。22 这个性质是配置模型极其重要的性质,但对许多现实世界 网络(见Sec.}

我要回帖

更多关于 顺丰hk 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信