時(shí)間:2021年09月13日 分類:經(jīng)濟(jì)論文 次數(shù):
摘 要 大數(shù)據(jù)提供了看待和處理信息的新視角和新工具。 高校檔案具有大數(shù)據(jù)的特性,大數(shù)據(jù)要求高校檔案管理更關(guān)注檔案信息的數(shù)據(jù)化,改變傳統(tǒng)檔案收集觀念,并賦予了高校檔案全生命周期管理的新內(nèi)涵:按“全數(shù)據(jù)”的要求對(duì)文件和檔案進(jìn)行統(tǒng)一管理; 以數(shù)據(jù)生命周期管理統(tǒng)一文件生命周期和檔案生命周期; 強(qiáng)化在前端進(jìn)行數(shù)據(jù)的收集,為大數(shù)據(jù)分析提供充分的素材。
關(guān)鍵詞 大數(shù)據(jù) 生命周期管理 高校 檔案
信息技術(shù)的發(fā)展日新月異,給我們帶來(lái)了處理信息的新視角和新工具。 方興未艾的大數(shù)據(jù)研究給各行各業(yè)的管理帶來(lái)了歷史性的變革,高校檔案管理工作隨之發(fā)展。 作為一類特殊而有價(jià)值的檔案資源,從大數(shù)據(jù)的視角如何優(yōu)化管理,成為當(dāng)下高校檔案管理研究的熱門(mén)課題。 筆者主要從大數(shù)據(jù)視角看待高校檔案全生命周期管理,探討大數(shù)據(jù)對(duì)高校檔案管理的啟示和要求,通過(guò)大數(shù)據(jù)賦予檔案全生命周期管理理論新的內(nèi)涵。
一、大數(shù)據(jù)的內(nèi)涵
大數(shù)據(jù)一般是指“無(wú)法用傳統(tǒng)計(jì)算工具或手段處理的數(shù)據(jù)”,最早在航天或者氣象等自然科學(xué)領(lǐng)域,由于數(shù)據(jù)不斷大量地產(chǎn)生,且數(shù)據(jù)之間存在著弱關(guān)聯(lián)性,需要對(duì)一整個(gè)集群進(jìn)行分析。 后來(lái)有人總結(jié)了大數(shù)據(jù)的4V特性,即:“大量化”(Volume)、“快速化”(Velocity)、“多樣化”(Variety)以及“價(jià)值化”(Value)。 從時(shí)代的發(fā)展來(lái)看,大數(shù)據(jù)標(biāo)志著人類處理數(shù)據(jù)能力的又一次提升,我們發(fā)展了新的數(shù)據(jù)收集、分析和預(yù)測(cè)工具,包括云計(jì)算、人工智能等。 大數(shù)據(jù)時(shí)代提出的“不是隨機(jī)樣本,而盡量是全體數(shù)據(jù)”“不是精確性,而是混雜性”“不是因果關(guān)系,而是相關(guān)關(guān)系”等觀念,既是源于數(shù)據(jù)處理技術(shù)發(fā)生了翻天覆地的變化,也是一種看待事物的新視角。
二、大數(shù)據(jù)視角對(duì)高校檔案管理的啟示
從大數(shù)據(jù)視角思考高校檔案管理,不難得出以下的啟示。
1.高校檔案確實(shí)具有大數(shù)據(jù)的特性。 和各行各業(yè)的數(shù)據(jù)增長(zhǎng)一樣,高校檔案數(shù)據(jù)也面臨著指數(shù)級(jí)別的增長(zhǎng)。 這主要得益于兩個(gè)方面:一是原生電子檔案的快速產(chǎn)生。 伴隨著高校管理活動(dòng)的開(kāi)展,每天都在產(chǎn)生著大量有價(jià)值的檔案信息,例如教學(xué)活動(dòng)中產(chǎn)生的課程教案、科學(xué)研究中產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)、黨政管理中產(chǎn)生的電子公文等。 二是傳統(tǒng)載體檔案數(shù)字化的積極推進(jìn)。 技術(shù)的進(jìn)步使高校傳統(tǒng)載體檔案的數(shù)字化成為可能,為了更高效地利用檔案提供服務(wù),高校檔案數(shù)字化工作正在各地如火如荼地進(jìn)行著。 以上海交通大學(xué)為例,截至2010年10月15日,上海交通大學(xué)檔案館館藏檔案已數(shù)字化3667407頁(yè),數(shù)字化信息資源約為2PB[1]39-40,且還在持續(xù)增長(zhǎng)。 由此可見(jiàn),高校檔案資源正邁向大數(shù)據(jù)行列。
2.大數(shù)據(jù)要求更關(guān)注高校檔案信息的數(shù)據(jù)化。 檔案信息的載體從古至今不斷發(fā)展變化,紙張是被使用最久的檔案信息載體。 過(guò)去,檔案信息隱藏于字里行間,需要人工去識(shí)別。 前面提到,不少高校已經(jīng)開(kāi)展了檔案數(shù)字化工作,但數(shù)字化工作往往只是通過(guò)掃描的形式把一些非數(shù)字化信息變成“0”和“1”的數(shù)字化形式以便于計(jì)算機(jī)閱讀,掃描的數(shù)字化的內(nèi)容還大多是以圖像的形式儲(chǔ)存,不能通過(guò)檢索詞進(jìn)行檢索,也就是數(shù)字文本沒(méi)有數(shù)據(jù)化。 顯然,只有對(duì)檔案信息進(jìn)行數(shù)據(jù)化后,才談得上對(duì)檔案大數(shù)據(jù)的深度分析和整合,才能提供智能化的預(yù)測(cè)等[2]4-7。 因此,大數(shù)據(jù)要求在原有檔案數(shù)字化的基礎(chǔ)上,進(jìn)一步進(jìn)行檔案信息的數(shù)據(jù)化工作。
3.大數(shù)據(jù)意味著檔案數(shù)據(jù)收集觀念的改變。 過(guò)去,高校檔案數(shù)據(jù)的收集往往局限于歸檔范圍,不關(guān)注新的檔案形式。 而在大數(shù)據(jù)時(shí)代,要求“不是隨機(jī)樣本,而盡量是全體數(shù)據(jù)”。 全數(shù)據(jù)的好處在于:它可以覆蓋整個(gè)數(shù)據(jù)集的細(xì)節(jié),讓我們從不同的角度,更細(xì)致地觀察和研究數(shù)據(jù)的各個(gè)方面,從而收獲意想不到的觀點(diǎn),并且沒(méi)有偏見(jiàn)。 而刻意篩選,往往讓我們忽略了現(xiàn)象的細(xì)節(jié)[3]41。 因此,高校檔案與大數(shù)據(jù)的結(jié)合意味未來(lái)高校檔案數(shù)據(jù)的收集范圍將大大拓展,更加多元化,更具實(shí)時(shí)性,包括高校網(wǎng)頁(yè)、論壇和新媒體上的各類數(shù)據(jù)也將被列入檔案收集管理的范圍。
三、大數(shù)據(jù)視角下高校檔案全生命周期管理新內(nèi)涵
最早,由美國(guó)檔案學(xué)者菲利普·布魯克斯等在20世紀(jì)文件數(shù)量急劇增長(zhǎng)的背景下提出“文件生命周期”的概念,后來(lái),我國(guó)檔案學(xué)界又提出了“檔案生命周期”的概念,其實(shí)這是同一事物在不同發(fā)展階段呈現(xiàn)的不同形態(tài)而已。 以歸檔為界,歸檔前為文件,歸檔后為檔案,文件不一定都能歸檔。 在大數(shù)據(jù)時(shí)代,更應(yīng)該泛化文件和檔案的概念,因?yàn)樗鼈兊谋举|(zhì)都是數(shù)據(jù),應(yīng)該統(tǒng)一用大數(shù)據(jù)的視角進(jìn)行分析和處理。
文件生命周期理論(實(shí)際上文件生命周期理論的內(nèi)涵已經(jīng)包括檔案)指出,文件的運(yùn)動(dòng)具有階段性,文件的運(yùn)動(dòng)可以分為現(xiàn)行、半現(xiàn)行和非現(xiàn)行三個(gè)階段。 現(xiàn)行階段便是文件的實(shí)施階段,文件的信息主要為形成單位服務(wù)。 半現(xiàn)行階段意味著文件的實(shí)際效用已經(jīng)消失,對(duì)原有單位的服務(wù)功能逐漸減弱。 文件運(yùn)動(dòng)的非現(xiàn)行階段是檔案階段,文件已經(jīng)轉(zhuǎn)化為檔案,并存放在檔案室(館)以供社會(huì)利用。 而本文討論的生命周期理論就是研究文件或檔案生成、運(yùn)動(dòng)、變化的過(guò)程及規(guī)律的理論。
生命周期理論最早關(guān)注的是不同階段文件或檔案價(jià)值變化的規(guī)律,進(jìn)而指導(dǎo)文檔管理工作。 然而,該理論在大數(shù)據(jù)時(shí)代亟待改革。 因?yàn)椋诖髷?shù)據(jù)時(shí)代,由于新的數(shù)據(jù)處理、分析工具的出現(xiàn),使文件或檔案的價(jià)值在各個(gè)階段都能有所體現(xiàn)。 因此,過(guò)去通過(guò)人為手段篩選、鑒定檔案價(jià)值的行為,應(yīng)當(dāng)有所弱化。
另外,即使是歷史的數(shù)據(jù),也不代表沒(méi)有現(xiàn)行的用處,因?yàn)榇髷?shù)據(jù)分析對(duì)未來(lái)的預(yù)測(cè)恰恰是建立在大量歷史數(shù)據(jù)的基礎(chǔ)上的。 誰(shuí)也不能保證當(dāng)前看起來(lái)沒(méi)有價(jià)值的歷史數(shù)據(jù)將來(lái)不會(huì)發(fā)揮其價(jià)值。 加上數(shù)據(jù)存儲(chǔ)和處理的成本日益降低,使得大量歷史數(shù)據(jù)的存放也成為可能。 因此,應(yīng)重新認(rèn)識(shí)高校檔案全生命周期管理的內(nèi)涵。 大數(shù)據(jù)視角下高校檔案生命周期管理的新內(nèi)涵應(yīng)包括以下要點(diǎn)。
1.按“全數(shù)據(jù)”的要求對(duì)文件和檔案進(jìn)行統(tǒng)一管理。
過(guò)去檔案管理流行“前端控制”理論,即在文件形成階段對(duì)其積極介入管理,現(xiàn)在講要在各信息系統(tǒng)中注重元數(shù)據(jù)的采集,其實(shí)都是一種“全數(shù)據(jù)”的觀點(diǎn)。 即盡可能全面地收集數(shù)據(jù),避免之后由于缺乏相關(guān)數(shù)據(jù)而難以管理利用檔案。 信息系統(tǒng)中對(duì)文件的相應(yīng)處理都應(yīng)留下相應(yīng)的數(shù)據(jù),并積極將文件或檔案中的各類信息轉(zhuǎn)化為可用的數(shù)據(jù),以適應(yīng)大數(shù)據(jù)時(shí)代關(guān)注檔案信息數(shù)據(jù)化的要求。
同時(shí),要弱化文件與檔案的區(qū)別,無(wú)論是文件還是檔案,對(duì)于大數(shù)據(jù)分析、預(yù)測(cè)都是必需的。 傳統(tǒng)的歸檔過(guò)程是一個(gè)篩選、鑒定的過(guò)程,會(huì)過(guò)濾掉很多未來(lái)分析預(yù)測(cè)所需要的細(xì)節(jié)。 因此,在可能的情況下,要盡量“全”地將文件歸檔,泛化檔案的概念,并將歸檔作為文件集中的一個(gè)手段,為大數(shù)據(jù)分析利用提供便利。綜上,不論在文件的哪個(gè)階段,都應(yīng)以“全數(shù)據(jù)”的要求統(tǒng)一對(duì)文件和檔案進(jìn)行管理。
2.以數(shù)據(jù)生命周期管理統(tǒng)一文件生命周期和檔案生命周期。
數(shù)據(jù)生命周期管理是一種基于不同階段、不同數(shù)據(jù)特性實(shí)施的管理模型,以獲取數(shù)據(jù)使用的最大價(jià)值,并有效地降低數(shù)據(jù)管理成本。 它能對(duì)數(shù)據(jù)進(jìn)行主動(dòng)管理。 數(shù)據(jù)生命周期理論認(rèn)為,數(shù)據(jù)具有使用的生命周期。 隨著時(shí)間的推移,它遵循的一個(gè)客觀規(guī)律是:數(shù)據(jù)訪問(wèn)的頻率隨積累的數(shù)據(jù)量而發(fā)生變化。 因此,我們需要根據(jù)數(shù)據(jù)的訪問(wèn)頻率來(lái)評(píng)估數(shù)據(jù)的價(jià)值,并采用低成本的數(shù)據(jù)保存方法對(duì)很多低價(jià)值的信息進(jìn)行處理,使數(shù)據(jù)的價(jià)值大致與存儲(chǔ)和管理成本相匹配,從而盡可能降低整體的數(shù)據(jù)管理和存儲(chǔ)成本[4]71-75。
因此,用數(shù)據(jù)生命周期管理代替?zhèn)鹘y(tǒng)文件與檔案分界的生命周期劃分管理法,不刻意區(qū)分是文件或是檔案,僅僅根據(jù)實(shí)際使用頻率來(lái)進(jìn)行區(qū)別管理。 對(duì)于訪問(wèn)量或使用頻率較低的數(shù)據(jù),類似計(jì)算機(jī)將不經(jīng)常訪問(wèn)的數(shù)據(jù)放在效率較低的存儲(chǔ)器上的策略一樣,可以逐步將其轉(zhuǎn)移至效率較低的存儲(chǔ)介質(zhì)和處理工具上; 對(duì)于訪問(wèn)量或使用頻率較高的數(shù)據(jù),通過(guò)大數(shù)據(jù)工具進(jìn)行預(yù)判,自動(dòng)將其轉(zhuǎn)移至效率較高的存儲(chǔ)介質(zhì)和處理工具上。
這無(wú)疑是一種符合實(shí)際需要又能大幅度節(jié)省成本的作法。 當(dāng)然,理論上,應(yīng)該給每個(gè)數(shù)據(jù)平等的存儲(chǔ)空間和處理能力,才符合大數(shù)據(jù)的精神。 但實(shí)際上,由于數(shù)據(jù)量的增大仍遠(yuǎn)遠(yuǎn)高于存儲(chǔ)空間和處理能力等的提升,因此仍然需要考慮在盡可能“全”地保存文件和檔案數(shù)據(jù)的情況下為不同數(shù)據(jù)分配不同級(jí)別的資源。
3.強(qiáng)化在前端進(jìn)行數(shù)據(jù)的收集,為大數(shù)據(jù)分析提供充分的素材。 數(shù)據(jù)在生成階段是最活躍的,此時(shí)收集的成本要比后來(lái)收集的成本低。 舉例來(lái)說(shuō),高校的電子文件原文,如果等到歸檔后再進(jìn)行紙質(zhì)的數(shù)字化工作,既耗費(fèi)成本,實(shí)際效果也不一定好。 因此,在數(shù)據(jù)的生成階段,就要充分考慮將來(lái)的應(yīng)用場(chǎng)景,制定相對(duì)統(tǒng)一、規(guī)范的元數(shù)據(jù)采集標(biāo)準(zhǔn),并盡量通過(guò)系統(tǒng)自動(dòng)捕獲元數(shù)據(jù)。
同時(shí),對(duì)文檔使用和管理人員進(jìn)行培訓(xùn),使其真正將數(shù)據(jù)管理的標(biāo)準(zhǔn)落實(shí)。 元數(shù)據(jù)的標(biāo)準(zhǔn)應(yīng)充分考慮數(shù)據(jù)的應(yīng)用需求,而不能僅僅只考慮檔案部門(mén)的歸檔要求,歸檔要求僅僅是數(shù)據(jù)應(yīng)用需求中的一部分而已,還需要了解數(shù)據(jù)的行業(yè)特性和應(yīng)用場(chǎng)景等,這樣制定出的元數(shù)據(jù)標(biāo)準(zhǔn)才更有可操作性,而且更有利于數(shù)據(jù)充分發(fā)揮價(jià)值。
大數(shù)據(jù)既是高校檔案管理工作的機(jī)遇和挑戰(zhàn),又是不可逆轉(zhuǎn)的時(shí)代潮流。 積極關(guān)注高校檔案與大數(shù)據(jù)的結(jié)合,通過(guò)大數(shù)據(jù)視角重新理解并實(shí)踐檔案全生命周期管理,按“全數(shù)據(jù)”的要求對(duì)文件和檔案進(jìn)行統(tǒng)一管理,以數(shù)據(jù)生命周期管理統(tǒng)一文件生命周期和檔案生命周期,并強(qiáng)化在前端進(jìn)行數(shù)據(jù)的收集,這將是高校檔案管理工作積極探索實(shí)踐,發(fā)揮自身最大價(jià)值的必由之路。
參考文獻(xiàn):
[1]寧燕子.大數(shù)據(jù)對(duì)高校檔案工作的影響分析及對(duì)策研究[J].科技視界,2015(1).
[2]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學(xué)通訊,2015(2).
[3]維克托·邁爾·舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[4]劉曉.大數(shù)據(jù)環(huán)境下數(shù)據(jù)中心的數(shù)據(jù)生命周期管理研究[J].中國(guó)金融電腦,2014(10).
★作者簡(jiǎn)介:徐欽梅,福建警察學(xué)院研究實(shí)習(xí)員,碩士研究生,研究方向?yàn)楣补芾?zwj;。