時(shí)間:2022年03月31日 分類:經(jīng)濟(jì)論文 次數(shù):
摘 要: [目的/ 意義] 跨學(xué)科、 跨領(lǐng)域研究已經(jīng)成為學(xué)術(shù)研究的趨勢(shì), 針對(duì)圖情檔學(xué)科的文獻(xiàn)熱點(diǎn)分析,有助于研究者快速掌握該領(lǐng)域的熱點(diǎn)問題和未來趨勢(shì), 也為跨領(lǐng)域融合提供理論參考。 [方法/ 過程] 以 2016—2021 年圖情檔學(xué)科文獻(xiàn)為研究對(duì)象, 利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò), 使用 Gephi 網(wǎng)絡(luò)分析及可視化工具對(duì)圖情檔學(xué)科文獻(xiàn)熱點(diǎn)進(jìn)行挖掘。 [結(jié)果/ 結(jié)論] 挖掘出圖書館學(xué)、 情報(bào)學(xué)和檔案學(xué)的熱點(diǎn)研究主題后, 從圖情檔一級(jí)學(xué)科的視角綜合分析現(xiàn)有文獻(xiàn)熱點(diǎn)的特征, 試圖提出該學(xué)科下一步的學(xué)科熱點(diǎn)主題和研究方向, 為后續(xù)研究者提供指引和參考。
關(guān)鍵詞: 圖情檔學(xué)科; 復(fù)雜網(wǎng)絡(luò); 文獻(xiàn)熱點(diǎn)
當(dāng)今互聯(lián)網(wǎng)背景下的信息技術(shù)革命顛覆了各行各業(yè), 教育領(lǐng)域尤為突出。 由美國西姆學(xué)院提出的“新文科” 概念, 于 2018 年 8 月正式出現(xiàn)在我國中共中央發(fā)布的文件中。 2019 年, 為了全面推進(jìn)“四新” (即新工科、 新醫(yī)科、 新文科、 新農(nóng)科)建設(shè), 教育部、 科技部等 13 個(gè)部門聯(lián)合啟動(dòng)了 “六卓越一拔尖” 計(jì)劃 2. 0[1], 至此 “新文科” 建設(shè)開始落地實(shí)施。 2020 年, 在山東大學(xué)召開的新文科建設(shè)會(huì)議中發(fā)布了 《新文科建設(shè)宣言》, 全面部署新文科建設(shè)的相關(guān)工作[2]。
“新文科” 建設(shè)已成為我國今后高等教育所要著力推進(jìn)的核心工作, 在此背景下, 圖書情報(bào)與檔案管理(以下簡稱圖情檔)學(xué)界的不少學(xué)者對(duì)圖書情報(bào)學(xué)科的發(fā)展趨勢(shì)進(jìn)行積極的探索。 初景利[3] 認(rèn)為, 應(yīng)積極響應(yīng)新文科建設(shè)的戰(zhàn)略, 強(qiáng)化圖情檔學(xué)科與其他學(xué)科的交叉融合, 致力于實(shí)現(xiàn)圖情檔從 “軟學(xué)科” 到 “硬學(xué)科” 的再造。 馬費(fèi)成等[4] 提出要從關(guān)注社會(huì)需求、重視交叉融合、 加強(qiáng)理論創(chuàng)新、 堅(jiān)守人文傳統(tǒng)等方面來思考圖情檔學(xué)科未來發(fā)展。
柯平[5] 認(rèn)為, 圖情檔學(xué)科要迎合新文科建設(shè)的相關(guān)政策, 努力打造出跨界融合的新文科建設(shè)模式。 可見, 圖情檔學(xué)科將在新文科建設(shè)征程中大有可為, 提高圖情檔學(xué)科的科研水平, 大力培育與其他學(xué)科交叉融合的新興學(xué)科, 是當(dāng)前圖情檔學(xué)科建設(shè)所面臨的重要問題。圖情檔學(xué)科要想適應(yīng)和契合新文科戰(zhàn)略部署,必須重新審視本學(xué)科現(xiàn)有的定位。
圖情檔學(xué)科作為一級(jí)學(xué)科, 在學(xué)科門類上隸屬于管理學(xué), 管理學(xué)既不是純粹的理科, 也不是純粹的文科, 本身具有很強(qiáng)的交叉學(xué)科性質(zhì)[3]。 近年來, 圖情檔學(xué)科在人工智能、 數(shù)據(jù)科學(xué)、 公共文化管理、 信息學(xué)、 數(shù)字人文等新興領(lǐng)域?qū)崿F(xiàn)了跨學(xué)科的融合發(fā)展, 并積累了大量的學(xué)術(shù)成果。 要想更好地迎接新文科建設(shè)下的挑戰(zhàn), 就需要對(duì)圖情檔學(xué)科既往的研究成果進(jìn)行綜合分析, 挖掘出圖情檔學(xué)科研究熱點(diǎn), 既可為該領(lǐng)域及跨領(lǐng)域的研究者作出指引, 也可提升圖情檔學(xué)科的學(xué)術(shù)科研水平。
筆者分析現(xiàn)有的圖情檔學(xué)科的研究熱點(diǎn)文獻(xiàn), 發(fā)現(xiàn)研究成果不超過 5 篇, 其中孫艷紅[6]、 吳維芳[7]、 柴歡等[8] 都是對(duì)該學(xué)科領(lǐng)域內(nèi)科研立項(xiàng)的情況進(jìn)行統(tǒng)計(jì)分析, 且多是通過簡單的圖表和描述性文字來分析數(shù)據(jù), 對(duì)關(guān)鍵詞的統(tǒng)計(jì)和劃分也帶有很大的主觀能動(dòng)性, 缺乏系統(tǒng)的文本處理方法和科學(xué)的關(guān)鍵詞提取技術(shù)。 因考慮到科研立項(xiàng)情況并非能涵蓋所有的圖情檔學(xué)科研究熱點(diǎn), 為更好地幫助研究者快速掌握該領(lǐng)域內(nèi)全部的研究熱點(diǎn), 故以 2016—2021 年圖情檔學(xué)科文獻(xiàn)為研究對(duì)象, 利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò), 使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點(diǎn)研究主題, 從而揭示圖情檔學(xué)科熱點(diǎn)研究領(lǐng)域及各領(lǐng)域熱點(diǎn)研究主題。
1 相關(guān)研究
復(fù)雜網(wǎng)絡(luò)是對(duì)存在的網(wǎng)絡(luò)現(xiàn)象及其復(fù)雜性進(jìn)行解釋的學(xué)科[9], 因其以圖像化的方式再現(xiàn)系統(tǒng)中各大主體及其之間的關(guān)系而受到不少學(xué)者的關(guān)注。該理論已被應(yīng)用于文獻(xiàn)挖掘領(lǐng)域, 其理論模型是由大量的節(jié)點(diǎn)和連接兩端節(jié)點(diǎn)的邊組成。 熱點(diǎn)挖掘和識(shí)別是文獻(xiàn)分析研究的重要方法之一, 其是指探析一個(gè)學(xué)科領(lǐng)域的研究熱點(diǎn)及其連接關(guān)系[10]。
分析文獻(xiàn)本身就是一個(gè)復(fù)雜、 多階段和耗時(shí)的過程, 因此 Feng L 等[11]認(rèn)為, 在系統(tǒng)分析文獻(xiàn)時(shí)要使用一定的文本挖掘技術(shù)和工具。 關(guān)鍵詞是文獻(xiàn)文本挖掘中不可忽視的重要信息, 是一篇文獻(xiàn)表達(dá)其主題的重要手段。 通過對(duì)某一學(xué)科領(lǐng)域內(nèi)現(xiàn)有文獻(xiàn)的關(guān)鍵詞進(jìn)行集合性分析, 可揭示所在學(xué)科領(lǐng)域的總體特征、研究熱點(diǎn)、 研究主題及發(fā)展趨勢(shì)等特性。國內(nèi)外學(xué)者基于復(fù)雜網(wǎng)絡(luò)挖掘文獻(xiàn)熱點(diǎn)展開了積極的探索。
如 Su X 等[12]對(duì)數(shù)字圖書館文獻(xiàn)進(jìn)行關(guān)鍵詞的統(tǒng)計(jì)和聚類分析, 基于復(fù)雜網(wǎng)絡(luò)原理將提取到的關(guān)鍵詞進(jìn)行兩兩不重復(fù)的、 無序的組合后,統(tǒng)計(jì)出每一對(duì)關(guān)鍵詞出現(xiàn)的頻次, 形成共現(xiàn)矩陣,最終結(jié)合復(fù)雜網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)原理來挖掘不同的研究主題及主題之間的關(guān)系; Schossboeck J 等[13] 結(jié)合期刊內(nèi)容, 使用文本挖掘、 主題建模、 k-means聚類、 社會(huì)網(wǎng)絡(luò)分析和社區(qū)檢測等數(shù)據(jù)挖掘方法,分析某一期刊上發(fā)表過的所有論文.
最后從期刊管理的角度對(duì)研究結(jié)果進(jìn)行深入地定性解釋; 辛娟娟等[10]也運(yùn)用復(fù)雜網(wǎng)絡(luò)中社區(qū)識(shí)別技術(shù)對(duì)林業(yè)領(lǐng)域的文獻(xiàn)進(jìn)行挖掘, 最終總結(jié)出八大主題研究領(lǐng)域;蔡婷婷等[14]基于復(fù)雜網(wǎng)絡(luò)理論對(duì)關(guān)鍵詞進(jìn)行分析,總結(jié)出危險(xiǎn)品運(yùn)輸領(lǐng)域公路運(yùn)輸、 道路運(yùn)輸和層次分析法三大研究熱點(diǎn); 徐小瑩等[15] 基于網(wǎng)絡(luò)嵌入進(jìn)行大規(guī)模關(guān)鍵詞共詞分析, 最終分析出近四年來圖情學(xué)科熱度的持續(xù)、 增加和減退的研究主題。 復(fù)雜網(wǎng)絡(luò)的理論和文獻(xiàn)熱點(diǎn)挖掘技術(shù)在圖情檔學(xué)科領(lǐng)域暫處于起步階段, 研究成果較少, 這也為本文的研究提供了理論和實(shí)踐上的價(jià)值。
2 研究思路與框架
本研究首先利用 TF-IDF 方法提取文獻(xiàn)語義表征, 然后利用 DBSCAN 聚類算法發(fā)現(xiàn)研究主題較為集中的文獻(xiàn)簇, 最后利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò), 使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點(diǎn)研究主題。
2.1 文獻(xiàn)采集
筆者以 “圖情檔” “圖書情報(bào)檔案” “檔案”“檔案學(xué)” “圖書情報(bào)” “圖書館” “數(shù)字人文” “輿情” “用戶信息行為” 等關(guān)鍵詞, 在知網(wǎng)數(shù)據(jù)庫中以 “主題” 檢索方式進(jìn)行文獻(xiàn)檢索, 文獻(xiàn)檢索范圍主要覆蓋 2016—2021 年上述關(guān)鍵詞的相關(guān)中文文獻(xiàn)。 文獻(xiàn)采集的原則力求采集到的數(shù)據(jù)盡可能全面、 無遺漏, 具體操作時(shí), 這個(gè)問題就轉(zhuǎn)換為用于檢索的關(guān)鍵詞的設(shè)定盡可能全面。
對(duì)于關(guān)鍵詞的評(píng)估主要根據(jù): 一是檢索結(jié)果中包含圖情檔學(xué)科相關(guān)學(xué)術(shù)期刊的中圖分類號(hào) G25、 G35、 G26、 G27、 N99等, 或者包含 《中國圖書館學(xué)報(bào)》 《信息資源管理學(xué)報(bào)》 《圖書情報(bào)知識(shí)》 《圖書館論壇》 等 CSSCI、北大核心、 中國科技核心類期刊; 二是因?yàn)殛P(guān)鍵詞之間存在共詞關(guān)系, 收集一定數(shù)量關(guān)鍵詞之后新增關(guān)鍵詞檢索, 結(jié)果去重之后幾乎不再增加, 就認(rèn)為新增的關(guān)鍵詞和已收集關(guān)鍵詞存在共詞關(guān)系, 這一點(diǎn)在最終的分析中也能夠印證。 PageRank 排序最高的 “文獻(xiàn)計(jì)量學(xué)” 和 “閱讀推廣” 并沒有被用做關(guān)鍵詞去檢索文獻(xiàn), 因這兩個(gè)詞和本文所用到的多個(gè)關(guān)鍵詞都存在共詞關(guān)系, 所在文獻(xiàn)一樣被收集到分析數(shù)據(jù)中。
此外, 本文的分析方法和結(jié)果也可以證明文獻(xiàn)采集階段所使用的關(guān)鍵詞是 “完備” 和“收斂” 的, 文獻(xiàn)的主題聚類和關(guān)鍵詞網(wǎng)絡(luò)關(guān)系分析分別使用的是 TF-IDF 和 PageRank 方法, 這兩種主流的文本關(guān)鍵詞提取方法, 底層原理不同, 對(duì)于本文卻可通過共詞關(guān)系完美地解釋分析結(jié)果的統(tǒng)一性和合理性。 經(jīng)過多次檢索, 確定關(guān)鍵詞后, 采用 Python+Selenium 自動(dòng)化測試框架編寫爬蟲代碼,從文獻(xiàn)檢索結(jié)果中獲取標(biāo)題、 作者、 關(guān)鍵詞、 摘要、 年份等數(shù)據(jù), 最終采集到文獻(xiàn)42 865篇。
2.2 數(shù)據(jù)預(yù)處理
由于采用上述不同關(guān)鍵詞分別檢索到的文獻(xiàn)存在重復(fù), 因此首先對(duì)文獻(xiàn)集進(jìn)行去重。 并刪除會(huì)議通告、 期刊介紹、 選題指南等非研究型文獻(xiàn), 共剩余35 297篇。 最后, 根據(jù)中圖分類號(hào)規(guī)則[16], 圖情檔學(xué)科相關(guān)學(xué)術(shù)期刊的中圖分類號(hào)主要為 G25、G35、 G26、 G27、 N99 等。 此外, 考慮到跨學(xué)科研究, 保留 D92、 G40、 G42、 N94 等相關(guān)文獻(xiàn)進(jìn)行分析, 最終獲得文獻(xiàn)25 374篇。
文獻(xiàn)的題目、 摘要和關(guān)鍵詞這 3 項(xiàng)內(nèi)容基本能夠代表文獻(xiàn)的內(nèi)容, 將這 3 個(gè)部分的文本內(nèi)容作為一個(gè)整體處理。 這樣的處理方式主要是考慮到后面用 TF-IDF 方法對(duì)文本向量化時(shí), 同一個(gè)詞如果同時(shí)在這 3 個(gè)部分中多處出現(xiàn), 則比單獨(dú)的關(guān)鍵詞更能突顯文章主題。 關(guān)鍵詞是表達(dá)文獻(xiàn)語義的重要手段, 但常常也會(huì)存在表達(dá)偏差和表達(dá)不全, 同時(shí)用文獻(xiàn)的題目、 摘要和關(guān)鍵詞這 3 項(xiàng)內(nèi)容來表示文章語義是更為合適的選擇, Google Scholar、 Aminer 等學(xué)術(shù)搜索引擎同樣也是用這種處理方式來代表文章語義。
2. 3 PCA
降維雖然通過 TF-IDF 方法得到了在25 374篇文獻(xiàn)的空間內(nèi)以文獻(xiàn)為單位的一個(gè)表征, 但是這樣的表征是高度稀疏的, 直接作為下游機(jī)器學(xué)習(xí)模型的輸入效果很差, 因此引入 PCA 方法來解決這個(gè)問題。PCA 是常用的提取數(shù)據(jù)的手段, 其功能為提取主成分(主要信息), 摒棄冗余信息(次要信息),從而得到壓縮后的數(shù)據(jù), 實(shí)現(xiàn)維度的下降。 其設(shè)想通過投影矩陣將高維信息轉(zhuǎn)換到另一個(gè)坐標(biāo)系下,并通過平移將數(shù)據(jù)均值變?yōu)榱恪?/p>
PCA 認(rèn)為, 在變換過后的數(shù)據(jù)中, 在某一維度上, 數(shù)據(jù)分布得更分散, 則認(rèn)為對(duì)數(shù)據(jù)點(diǎn)分布情況的解釋力就更強(qiáng)。 故在 PCA 中, 通過方差來衡量數(shù)據(jù)樣本在各個(gè)方向上投影的分布情況, 進(jìn)而對(duì)有效的低維方向進(jìn)行選擇。 KernelPCA 是 PCA 的一個(gè)改進(jìn)版, 它將非線性可分的數(shù)據(jù)轉(zhuǎn)換到一個(gè)適合對(duì)齊進(jìn)行線性分類的新的低維子空間上, 該 PCA 可以通過非線性映射將數(shù)據(jù)轉(zhuǎn)換到高維空間里, 在高維空間中使用PCA 將其映射到另一個(gè)低維空間中, 并通過線性分類器對(duì)樣本進(jìn)行劃分。
筆者同時(shí)嘗試了 PCA 和 KernelPCA 方法將文獻(xiàn)表征向量的長度從55 973維壓縮到 50 維, 使表征矩陣不再稀疏。
2. 4 文本聚類
DBSCAN 是一種基于密度的聚類算法[18]。 使用 DBSCAN 算法對(duì)25 374篇文獻(xiàn)聚類, 同時(shí)使用Cosine 余弦距離作為距離度量, 挖掘熱點(diǎn)并過濾掉研究主題不是很集中的文獻(xiàn)和噪聲數(shù)據(jù), 將聚類的最小數(shù)量適量放大。 嘗試了多組搜索半徑和最小樣本數(shù)的組合, 實(shí)驗(yàn)效果較好的是: 使用 PCA 方法降維時(shí), 搜索半徑設(shè)為 0.05, 最小樣本數(shù)設(shè)為 50。
通過實(shí)驗(yàn), 共聚得 11 個(gè)類簇: 0 類簇包含文獻(xiàn) 126 篇, 主題為圖書館學(xué); 1 類簇包含文獻(xiàn) 127篇, 主題為目錄學(xué), 文獻(xiàn)編目; 2 類簇包含文獻(xiàn)318 篇, 主題為圖書館服務(wù), 閱讀推廣; 3 類簇包含文獻(xiàn) 114 篇, 主題為數(shù)字人文和信息技術(shù)與圖情檔學(xué)科的交叉研究; 4 類簇包含文獻(xiàn) 407 篇, 主題為文獻(xiàn)計(jì)量; 5 類簇包含文獻(xiàn) 198 篇, 主題為檔案管理模式和制度; 6 類簇包含文獻(xiàn) 160 篇, 主題為檔案服務(wù); 7 類簇包含文獻(xiàn) 54 篇, 主題為檔案學(xué)理論研究; 8 類簇包含文獻(xiàn) 52 篇, 主題為圖書館服務(wù)體系研究; 9 類簇包含文獻(xiàn) 62 篇, 主題為圖書館發(fā)展研究; 10 類簇包含文獻(xiàn) 95 篇, 主題為新媒體平臺(tái)和高校輿情; 未聚類23 671篇, 通過深入分析發(fā)現(xiàn), 未聚類的文獻(xiàn)存在 3 類情況:
第一類是研究主題較為籠統(tǒng)寬泛, 方向比較大, 沒有立足于一個(gè)非常具體的研究點(diǎn), 比較典型的是綜述類文獻(xiàn); 第二類是研究主題雖然明確, 但不具備數(shù)量上的集中性, 屬于小眾研究方向, 比如 “音樂院校圖書館口述歷史資源建設(shè)路徑探索” (《四川戲劇》2021)這樣冷門的跨學(xué)科的研究方向; 第三類是噪聲數(shù)據(jù), 經(jīng)過數(shù)據(jù)預(yù)處理之后, 仍然還會(huì)存在一部分噪聲數(shù)據(jù), 比如 “扎實(shí)求進(jìn), 推動(dòng)發(fā)展———北京市檔案館傳達(dá)全國檔案局長館長會(huì)議精神” (《北京檔案》 2021), 這種新聞簡報(bào)類數(shù)據(jù)存在于知網(wǎng)的檢索結(jié)果中, 但在數(shù)據(jù)預(yù)處理時(shí)無法用單一的規(guī)則過濾, 這一步借助無法聚類達(dá)到過濾的效果, 消除了噪音數(shù)據(jù)對(duì)后續(xù)分析的影響。
需要說明的是,聚類的平衡和效果, 是經(jīng)過多次實(shí)驗(yàn)比較之后得到的, 將聚類的最小樣本數(shù)設(shè)為 50, 從實(shí)驗(yàn)效果和數(shù)量占比上來講也是很合理的, 最小樣本數(shù)設(shè)為100時(shí), 聚類結(jié)果是 7 類, 而最小樣本數(shù)設(shè)為 40 時(shí), 聚類結(jié)果就增加到 23 類.
另外 50 篇大概占文獻(xiàn)數(shù)量(25 376篇)的 2%, 一個(gè)研究主題雖然具有一定的數(shù)量, 但卻不超過總數(shù)的 2%, 應(yīng)該也只能算很小眾的研究主題, 上述兩點(diǎn)證明當(dāng)前聚類結(jié)果是平衡合理的。 此外, 從全景圖和局部圖可以看出, 紫色的點(diǎn)是未聚類的文獻(xiàn), 散布在各處, 藍(lán)色、綠色、 黃色的點(diǎn)都是聚成類的文獻(xiàn), 而且相當(dāng)集中,各類之間邊界清晰, 說明聚類效果較好。
3 研究結(jié)果與分析
復(fù)雜網(wǎng)絡(luò)分析中, 節(jié)點(diǎn)度、 聚類系數(shù)和平均路徑長度這 3 個(gè)基本概念可以很好地反映一個(gè)網(wǎng)絡(luò)的基本特征。 另外, 衡量網(wǎng)絡(luò)小世界結(jié)構(gòu)的程度可以用小世界商值, 即將當(dāng)前網(wǎng)絡(luò)的聚類系數(shù) C、 平均路徑長度 L 與同規(guī)模隨機(jī)網(wǎng)絡(luò)的聚類系數(shù) C 和平均路徑長度 L 進(jìn)行比較運(yùn)算。
4 研究結(jié)果
4.1 圖情檔學(xué)科的熱點(diǎn)研究主題
本文基于復(fù)雜網(wǎng)絡(luò)技術(shù), 通過構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò), 以 2016—2021 年圖情檔學(xué)科文獻(xiàn)為研究對(duì)象, 使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點(diǎn)研究主題。
1) 圖書館領(lǐng)域的研究熱點(diǎn)最為聚集, 文獻(xiàn)核心主題以大數(shù)據(jù)、 高校和公共圖書館、 知識(shí)服務(wù)、人工智能、 閱讀推廣、 數(shù)字人文為主。 總體來說,圖書館領(lǐng)域文獻(xiàn)熱點(diǎn)可分為圖書館實(shí)證研究和圖書館學(xué)科研究。 圖書館實(shí)證研究是指對(duì)高校、 公共等特定類型圖書館的實(shí)證問題研究; 圖書館學(xué)科研究主要是指對(duì)圖書館學(xué)科的研究熱點(diǎn)、 專業(yè)建設(shè)或人才培養(yǎng)等方面的研究。
2) 情報(bào)學(xué)領(lǐng)域主題可分為以文獻(xiàn)計(jì)量、 學(xué)術(shù)評(píng)價(jià)為主的情報(bào)學(xué)應(yīng)用和大數(shù)據(jù)環(huán)境下情報(bào)學(xué)及情報(bào)學(xué)科建設(shè)兩類。 前者主要是使用 Citespace、 社會(huì)網(wǎng)絡(luò)分析、 共詞分析等方法對(duì)各學(xué)科進(jìn)行分析, 數(shù)據(jù)顯示主要應(yīng)用于醫(yī)學(xué)、 計(jì)算機(jī)科學(xué)、 教育等學(xué)科的熱點(diǎn)分析及其他相關(guān)研究。 后者主要是基于大數(shù)據(jù)、 數(shù)據(jù)科學(xué)等數(shù)據(jù)技術(shù)對(duì)情報(bào)學(xué)的學(xué)科建設(shè)、 人才培養(yǎng)、 學(xué)科理論等學(xué)科發(fā)展問題進(jìn)行研究。
3) 檔案領(lǐng)域文獻(xiàn)熱點(diǎn)集中在檔案數(shù)字化、 檔案館業(yè)務(wù)、 檔案學(xué)科研究及檔案局業(yè)務(wù)等相關(guān)主題上。 檔案數(shù)字化包括檔案信息化、 電子文件、 電子檔案、 大數(shù)據(jù)、 區(qū)塊鏈、 單套制、 云計(jì)算、 雙套制、 數(shù)據(jù)庫、 人工智能等; 檔案館業(yè)務(wù)包括檔案資源、 檔案利用、 檔案服務(wù)、 檔案文化、 檔案編研、檔案展覽、 檔案庫房、 社交媒體、 檔案開放、 城市記憶、 公眾參與等; 檔案學(xué)科研究包括知識(shí)圖譜、文獻(xiàn)計(jì)量、 數(shù)字人文、 檔案教育、 檔案學(xué)研究、 可視化、 Citespace、 人才培養(yǎng)、 高等教育、 研究熱點(diǎn)等; 檔案局業(yè)務(wù)包括檔案法、 民生檔案、 檔案安全、 公共服務(wù)、 檔案工作人員、 十三五、 疫情防控、 檔案業(yè)務(wù)指導(dǎo)、 檔案宣傳、 縣級(jí)檔案、 鄉(xiāng)村振興、 檔案管理隊(duì)伍等。
4. 2 熱點(diǎn)研究主題的特征
1) 文獻(xiàn)計(jì)量學(xué)研究成果較多。 文獻(xiàn)計(jì)量學(xué)作為圖情檔學(xué)科的一個(gè)重要議題, 經(jīng)過多年發(fā)展已經(jīng)成為該學(xué)科開展自身研究的一個(gè)重要方法, 交叉程度不斷加深。 圖情檔文獻(xiàn)熱點(diǎn)關(guān)鍵詞包括文獻(xiàn)計(jì)量學(xué)、 文獻(xiàn)計(jì)量、 引文分析、 聚類分析、 共詞分析等, 現(xiàn)主研人工智能的學(xué)者也把人工智能中流行數(shù)據(jù)可視化研究方法引入到文獻(xiàn)計(jì)量學(xué)研究中。 文獻(xiàn)計(jì)量學(xué)不僅能解決傳統(tǒng)的學(xué)科問題, 還能為人工智能的研究提供理論知識(shí)和參考經(jīng)驗(yàn)。
2) 圖情檔學(xué)科與信息技術(shù)緊密結(jié)合。 人工智能時(shí)代的來臨, 可視化、 知識(shí)圖譜、 聚類分析和社會(huì)網(wǎng)絡(luò)分析等許多具有代表性的技術(shù)和方法也影響著圖情檔學(xué)科的發(fā)展和研究。 可視化分析和 Citespace 等關(guān)鍵詞在各種指標(biāo)排序中都占有重要地位, 圖情檔學(xué)科各領(lǐng)域研究均對(duì)可視化技術(shù)和工具有巨大的需求, 國內(nèi)被使用最多的是Citespace。 以 Citespace、 Hist Cite 為代表的可視化工具, 對(duì)用戶來說存在一定的使用門檻, 未來, 誰可以更好地掌握可視化技術(shù)和工具誰就將在圖情檔學(xué)科研究中占得先機(jī)。
開展公共文化服務(wù), 傳承傳統(tǒng)文化。 公共文化服務(wù)一貫是我國圖情檔研究領(lǐng)域的熱點(diǎn), 公共圖書館、 高校圖書館和檔案館都以向用戶開展均等、 高質(zhì)量的文化活動(dòng)為己任。 當(dāng)前受疫情的影響, 圖書館及檔案領(lǐng)域的應(yīng)急管理和突發(fā)公共事件相關(guān)研究熱度較高。 大數(shù)據(jù)時(shí)代, 承擔(dān)傳承社會(huì)記憶職能的圖書館和檔案館的載體形式發(fā)生較大的改變, 除傳統(tǒng)的法治、 企業(yè)、 家族等檔案, 現(xiàn)檔案學(xué)的研究模式開始由紙質(zhì)向電子化轉(zhuǎn)變。 信息技術(shù)的發(fā)展要求檔案學(xué)要進(jìn)行跨學(xué)科、 跨領(lǐng)域融合, 檔案學(xué)與社會(huì)記憶的交叉融合的研究值得廣大學(xué)者關(guān)注。 同樣, 有關(guān)古籍保護(hù)學(xué)科建設(shè)問題也是圖情檔學(xué)科的重要議題。
5 結(jié) 語
本文基于復(fù)雜網(wǎng)絡(luò)技術(shù), 通過構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò), 以 2016—2021 年圖情檔學(xué)科文獻(xiàn)為研究對(duì)象, 文本處理上使用 TF-IDF 加權(quán)技術(shù)來分類文獻(xiàn),并嘗試 PCA 和 KernelPCA 方法壓縮文獻(xiàn)表征向量,最終運(yùn)用 DBSCAN 算法將文獻(xiàn)聚類。 文本處理后使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘出圖書館學(xué)、 情報(bào)學(xué)和檔案學(xué)的熱點(diǎn)研究主題。 最終, 從圖情檔一級(jí)學(xué)科的視角綜合分析現(xiàn)有文獻(xiàn)熱點(diǎn)的特征, 試圖提出該學(xué)科下一步的文獻(xiàn)熱點(diǎn)主題和研究方向, 為后續(xù)研究者提供指引和參考。 期望本研究可以讓該領(lǐng)域研究者在了解研究熱點(diǎn)的基礎(chǔ)上確定好自己的研究方向, 也能為新研究者或跨領(lǐng)域研究者快速了解圖情檔學(xué)科、 為跨領(lǐng)域融合提供參考。
參 考 文 獻(xiàn)
[1] 中華人民共和國教育部. “六卓越一拔尖” 計(jì)劃 2 0 啟動(dòng)大會(huì)召開, 掀起高教質(zhì)量革命, 助力打造質(zhì)量中國 [EB/ OL].
[2] 澎湃新聞. 新文科建設(shè)工作會(huì)在山東大學(xué)召開: 《新文科建設(shè)宣言》 發(fā)布 [ EB/ OL].
[3] 初景利. “新文科” 呼喚圖情檔成為 “硬” 學(xué)科 [ J]. 圖書與情報(bào), 2020, (6): 1-3.
[4] 馬費(fèi)成, 李志元. 新文科背景下我國圖書情報(bào)學(xué)科的發(fā)展前景[J]. 中國圖書館學(xué)報(bào), 2020, 46 (6): 4-15.
[5] 柯平. 新圖情檔———新文科建設(shè)中的圖書情報(bào)與檔案管理一級(jí)學(xué)科發(fā)展 [J]. 情報(bào)資料工作, 2021, 42 (1): 15-20.
[6] 孫艷紅. 國家基金項(xiàng)目視域下圖情檔學(xué)科研究現(xiàn)狀、 熱點(diǎn)及趨勢(shì)分析 [J]. 圖書館工作與研究, 2021, (3): 93-101.
[7] 吳維芳. 基于文本可視化挖掘圖情檔前沿研究熱點(diǎn)———來自國家社科基金 2017—2019 年圖情檔立項(xiàng)數(shù)據(jù) [ J]. 機(jī)電兵船檔案, 2020, (3): 26-28.
[8] 柴歡, 阮建海. 基于 2013—2017 年國家基金項(xiàng)目的 “圖書館、情報(bào)與檔案管理” 學(xué)科研究現(xiàn)狀分析 [ J]. 情報(bào)科學(xué), 2019,37 (8): 163-169.
[9] 呂莉媛. 基于復(fù)雜網(wǎng)絡(luò)的圖書館數(shù)字資源整合 [ J]. 情報(bào)科學(xué), 2009, 27 (12): 1811-1815.
[10] 辛娟娟, 曹佳. 基于復(fù)雜網(wǎng)絡(luò)的文獻(xiàn)熱點(diǎn)挖掘及可視化 [ J].計(jì)算機(jī)工程與應(yīng)用, 2016, 52 (12): 261-264, 270.
作者:巫芯宇