科學知識網絡自相似性的實證統(tǒng)計報告分析
1 引言
科學計量學是應用數理統(tǒng)計和計算機技術等方法對科學技術本身進行定量分析的一門交叉學科,其定量分析的對象為科學知識,文獻等是科學知識的重要載體。但是在實際研究過程中獲取所有知識總體是不現實的,因此利用選取期刊或是關鍵詞檢索獲得數據樣本,成為科學計量學研究的最主要途徑 。這種途徑是建立在科學知識具備自相似性的假設前提下的,即樣本和總體的相似。
伴隨著科學技術的迅猛發(fā)展,科學知識也在大規(guī)模地擴張,例如每年SCI數據庫的文獻增長量就達到100多萬篇,巨大而復雜的科學知識數據,為科學計量學提出了極大的挑戰(zhàn)。然而,復雜網絡分析、計算機技術、信息可視化等相關技術和方法的發(fā)展為科學計量學注入了新鮮的血液[1][2],使得科學知識圖譜[3][4]與知識可視化技術[5]成為了科學計量學的新航向,并在反恐主義研究領域分析[6]、科技期刊引文環(huán)境[7]等諸多領域得到廣泛應用。然而,對于某一學科領域來說數據量過于龐大,展現所有數據的知識圖譜是現有技術無法實現的,所以知識圖譜的繪制只能選擇一部分高被引或其他告知標志的文獻,正是由于自相似性假設的存在,使得高被引文獻的知識圖譜也能反映總體的一部分特征。
因此,無論是科學計量學還是科學知識圖譜的研究都以科學知識自相似性的存在作為理論前提的。1990年Van Raan意識到科學知識的相似性,率先驗證了科學知識的分形結構,并證明了隨著共被引文獻規(guī)模的增加,其分數維數呈指數分布形式增加[8][9][10]。隨后Brunk GG[11]、Bailon-Moreno R[12]等在此基礎上,對科學知識系統(tǒng)的分形結構進行了探討。以上研究都局限于分形結構的研究,關注科學論文在時間上的擴散與增長,對于其它自相似結構尤其是共被引網絡等空間結構的自相似并沒有涉及,并且缺乏對自相似性的檢驗與證明。除此之外,通過文獻的大量檢索鮮見科學知識自相似性的研究,在國內的文獻中并沒有檢索到相關研究。
同時,自相似性在數據通信[13]、人類生物網絡[14]以及復雜網絡等諸多領域被研究,C.M.Song與S.Havlin[15] 等人利用重構化理論來揭示復雜網絡的自相似分形特征;R.Guimera 與L.Danon[16]在研究中利用郵件系統(tǒng)來揭示社區(qū)結構的自相似分形特征;陶少華[17][18]等分別研究了基于信息維數與容量維數的復雜網絡的自相似性,建立了基于自相似分型特征的網絡演化模型,并且說明動態(tài)增長的復雜網絡的確是自相似的,這些研究為本項目提供了啟示與參考。
本文主要研究科學文獻在空間上的自相似性,選取科學文獻所組成的知識網絡中平均聚類系數、平均最短路徑、平均度三個基本指標,隨著網絡規(guī)模的變化情況,建立模型驗證科學文獻在網絡拓撲空間中的自相似性,從而為解釋科學規(guī)律,明確科學計量學中的數據選擇尺度提供參考。
2 科學知識網絡的自相似模型
2.1 指標選取
自相似性是指某一物體的局部可能在一定條件下或過程中,在某一方面例如狀態(tài)、結構、信息、功能、時間、能量等都表現出與整體的相似性,即具有尺度不變性??臻g自相似性是一種非常普遍的現象,通常被理解為系統(tǒng)的部分和整體在空間形態(tài)和結構上存在某種相似性。而科學文獻空間的自相似性是指由科學文獻的作者、關鍵詞或者參考文獻等所組成的空間結構的局部與整體具有某種相同的性質。目前,在科學文獻的計量分析中,科學知識網絡,包括合作網絡、共詞網絡、共被引網絡等是科學文獻空間上拓撲結構最好的表現形式。
隨著對復雜網絡研究的深入,研究者提出了許多特征指標,來描述各種不同類型的復雜網絡的共同特征,同時也用來衡量各種復雜網絡演化模型的準確性和有效性。目前,研究比較充分的統(tǒng)計特性有平均聚類系數、平均最短路徑、平均度等[19]。
(1)平均聚類系數:假設網絡中的一個節(jié)點i有ki條邊將它與其它節(jié)點相連,這ki個節(jié)點稱為節(jié)點i的鄰居節(jié)點,在這ki個鄰居節(jié)點之間最多可能有ki(ki-1)/2條邊。節(jié)點i的ki個鄰居節(jié)點之間實際存在的邊數Ni和最多可能有的邊數ki(ki-1)/2之比就定義為節(jié)點i的聚類系數,記為Ci。整個網絡的聚類系數定義為網絡中所有節(jié)點i的聚類系數Ci的平均值,記為C。聚類系數用來衡量網絡中節(jié)點間連接的緊密程度。
(2)平均最短路徑:網絡中任何兩個節(jié)點i和j之間的距離pij為從其中一個節(jié)點出發(fā)到達另一個節(jié)點所要經過的連邊的最少數目。網絡的平均最短距離P為網絡中所有節(jié)點對之間距離的平均值。網絡的平均最短路徑D主要用來衡量網絡的傳輸效率。
(3)平均度:網絡中某個節(jié)點i的度ki定義為與該節(jié)點相連接的其它節(jié)點的數目,也就是該節(jié)點的鄰居數。通常情況下,網絡中不同節(jié)點的度并不相同,所有節(jié)點i的度ki的的平均值稱為網絡的(節(jié)點)平均度,記為。
2.2 模型建立
根據以上指標為科學知識網絡的自相似性賦予如下定義:設集合科學知識網絡 ,如果存在子網絡,其中,使得網絡特征指標,則稱子網絡與自相似,記;如果對任意的,有,則稱具備自相似性。
(A) n=600 (B) n=1000
以合作網絡為例,圖1為某一領域節(jié)點數分別為600和1000時的合作網絡的子網絡圖??梢郧宄庇^地看出,兩個網絡圖的整體結構是相似的,隨著節(jié)點的增加,B的結構并沒有實質的改變。我們可以說當N達到600時,網絡已經呈現平穩(wěn)的態(tài)勢,這時節(jié)點的增加并不會改變整體網絡的性質,可以說明局部與整體具有自相似性。
根據以上定義,對于指標y,如果網絡N具有自相似性,則y隨網絡規(guī)模的變化趨勢
即當 達到某一值 時,序列趨于平穩(wěn),后的數值圍繞著0值上下波動,若其波動范圍很小可以近似為零,則說明隨著數據的增加,序列整體的性質保持不變,N具有自相似性。
3 實證分析
選取材料處理技術作為案例,從Web of Science中下載該領域1990年到2010年的文獻,共11609篇,然后利用Bibexcel分別形成合作網絡,共詞網絡和共被引網絡,應用以上模型對三類科學知識網絡進行分析。
合作網絡是科學文獻的作者通過合作關系建立的科學知識網絡,網絡中的節(jié)點可以是作者、機構、國家等科學知識的生產者,如果兩個作者、機構、國家在文獻的作者中出現,則他們存在合作,記;可以表示他們的合作次數或強度,且。本文中的合作網絡為作者合作網絡,圖2中橫坐標為網絡的節(jié)點數即作者數,其中作者按照發(fā)文量由大到小排列,例如n=10表示只選取發(fā)文量前10所組成的合作網絡;縱坐標分別為平均聚類系數、平均最短路徑和平均度三個網絡特征指標。
(A) 平均聚類系數
(B) 平均最短路徑
(C) 平均度
圖2 合作網絡的特征指標差分序列的變化曲線
(A) 平均聚類系數
(B) 平均最短路徑
(C) 平均度
圖3 共詞網絡的特征指標差分序列的變化曲線
圖2中可以看出,平均聚類系數的差分序列在以后平穩(wěn)并且很快趨于零,平均最短路徑從開始,圍繞著0上下波動,平均度從 開始,逐漸趨近于0,這表明合作網絡具有自相似性。
共詞網絡是科學文獻中的關鍵詞或主題詞通過共現關系建立的科學知識網絡,詞是是對科學知識最直接的描述,共詞網絡中的節(jié)點可以是文獻中標注的關鍵詞,亦可以是來自于文獻的題目、摘要甚至文獻內部中的、能夠清晰描述知識內容的主題詞。如果兩個詞在同一篇文獻中出現,則,他們在網絡存在邊的連接;可以表示他們共同出現的頻次或強度。本文中的共詞網絡為關鍵詞共現網絡,圖3中橫坐標為網絡的節(jié)點數即關鍵詞數,其中關鍵詞按照頻次由大到小排列,例如n=10表示出現頻次前10所組成的共詞網絡;縱坐標分別為平均聚類系數、平均最短路徑和平均度三個網絡特征指標。
從圖3可以看出,共詞網絡的平均聚類系數、平均最短路徑與平均度都與分別在n=62、n=132和n=132 以后趨近于0,所以共詞網絡具備自相似性。
共被引網絡是由文獻在參考文獻中的共被引關系組成的科學知識網絡,網絡中 表示文獻。如圖3所示,如果文獻 和 同時被文獻 引用,即在文獻 的參考文獻中同時出現,則 和 共被引,且 , 。圖4中橫坐標為網絡的節(jié)點數即引文數,其中引文按照被引頻次由大到小排列,例如 表示被引頻次前10的引文所組成的共被引網絡;縱坐標分別為平均聚類系數、平均最短路徑和平均度三個網絡特征指標。
(A) 平均聚類系數
(B) 平均最短路徑
(C) 平均度
圖4 共被引網絡的特征指標差分序列的變化曲線
從圖4可以看出,共被引網絡的平均聚類系數、平均最短路徑與平均度都與分別在 n=72、n=112 和n=132 以后圍繞著0上下波動,雖然波動的幅度比較大,但是序列的均值仍近似為0,并且方差非常小,所以共被引網絡基本具備自相似性。
4 結論
由于科學知識規(guī)模的大規(guī)模擴張,科學計量學受到了極大的挑戰(zhàn)。無論是科學計量學方法還是新興的科學知識圖譜都是以科學知識的自相似性為理論前提的,但是通過對國內外文獻的檢索發(fā)現,對科學文獻相似性的檢驗與深入研究并不多見。本文以科學文獻所組成的科學知識網絡在空間的自相似性為研究對象,首先建立科學知識網絡的自相似性模型,然后在此基礎上提出網絡特征指標收斂性檢驗的自相似性驗證方法,最后以材料處理技術領域在1990年到2010年間的11609篇論文為實例,對其合作網絡、共詞網絡和共被引網絡的自相似性進行了驗證。研究表明作者合作網絡與共詞網絡具備比較顯著的空間相似性,而共被引網絡基本具備自相似性,并且網絡特征指標中平均聚類系數收斂的速度遠快于其他指標,平均最短路徑與平均度的收斂速度基本相近。 [本文由wWw. dYLw.NE t提供,畢業(yè)論文 網專業(yè)代寫職稱論文和畢業(yè) 論文以及發(fā)表論文服務,歡迎光臨DYlw.ne T]
參考文獻:
[1]E Otte, R Rousseau. Social network analysis: a powerful strategy, also for the information sciences[J]. Journal of information science, 2002, 28 (6): 441-453.
[2]Chen C. Mapping Scientific Frontiers: The Quest for Knowledge Visualization[M]. London: Springer-Verlag, 2002.
[3]K B?rner, C Chen, KW Boyack. Visualizing Knowledge Domains. Annual Review of Information Science & Technology[D], B. Cronin, Editor. Information Today, Inc. American Society for Information Science and Technology: Medford, NJ, 2007, 179-255.