時間:2024年11月22日 分類:推薦論文 次數:
期刊之家辦的非常成功,極具口碑。在這里,你可以找到最具時事性的文章和最具代表性的各類文章。當然,因為免費和開源,大家都可以學習、借鑒和共同使用,如果你需要專屬于個人的原創文章,請點擊鏈接獲得專業文秘服務。
[摘 要]由于網站的結構設計,對特定用戶而言信息獲取的代價與所經過的瀏覽路徑長度成正比,這些位于路徑中間的不必要的文檔就無疑增加了用戶獲取信息的代價。本文利用Web挖掘的方法和技術對用戶所訪問的頁面序列進行挖掘,構建路徑優化的模型,實現對當前站點排序方式的優化,從而最大限度地優化用戶訪問體驗,提高當前站點信息獲取的整體效率。
[關鍵詞]站點路徑優化;Web挖掘;訪問序列
傳統的Web網站以系統自身為中心,為了容納大量的信息,以圖結構組織網站,頁面之間存在著比較復雜的層次關系。這些預先設計好的瀏覽路徑(網站的結構)嚴格按照設計者編輯好的層次返回頁面,因此,為了獲取特定的信息,從同一頁面出發的所有用戶都不得不重復地經過很多與自己毫無關系的、不希望看到的中間鏈接頁面,使得用戶為了獲取少量的信息付出較大的代價[1]。如果在確保網頁內容的前提下,實現網站物理結構的調整和再組織,就可以避免混亂。站點路徑優化實際上就是站點管理者優化其站點結構,它的出現就是為了提高用戶的訪問效率以及用戶對站點的忠誠度。
1 站點個性化與路徑優化
Web站點結構設計好壞的衡量標準之一是用戶為獲取所需信息所付出的平均代價,而這種代價則可以理解為所經過的超鏈數目和選擇這些超鏈的困難程度的函數。用戶的瀏覽路徑優化就是在盡量不破壞Web系統原有結構,即不刪除系統原有文檔和超鏈的前提下,通過增加新的超鏈或文檔來減少用戶獲取信息所需付出的平均代價[2]。
所謂站點個性化實質上就是為站點用戶提供個性化的站點訪問體驗。對于一般站點而言,站點管理者進行路徑優化的直接目的就是提高用戶點擊行為的效用度,最終目的是提高用戶滿意度與忠誠度。站點路徑的優化實際上就是優化站點結構,消除站點實際安排與用戶期望之間差異的過程,它為站點個性化提供了一種思路,即用戶一系列的瀏覽行為所遍及的頁面序列就是用戶針對目標頁面的尋找過程,此時站點設計可以考慮調整網站的結構、在頻繁訪問路徑處添加指向目標頁面的鏈接,或者是將常見瀏覽路徑加入緩存,如圖1所示。
圖1 網狀結構中的路徑優化
網站的頻繁瀏覽路徑體現了特定的用戶在特定時期內的活動規律,是站點路徑優化的依據。它包括兩個方面的內容:首先是個體用戶在其瀏覽歷史區域中多次重復出現的瀏覽路徑,另一方面即用戶群體在一定時期中瀏覽歷史區域內出現的瀏覽重復行為,即瀏覽模式。
個體用戶的一條瀏覽路徑對應于用戶的一段信息探求過程。根據個體用戶的重復瀏覽路徑,就可以形成用戶興趣視圖,并依據用戶興趣視圖完成個性化推薦,為用戶提供定制的訪問體驗。而用戶群體在較長時期內穩定的行為模式則為網站結構的改進和路徑的優化提供了參考依據。如果在一定時期內大多數用戶都表現出訪問路徑的相似性,此時Web站點就要做相應的訪問路徑優化。
前者可以為用戶提供“一對一”的具備自適應性的在線動態智能個性化服務,這種智能個性化服務可大大縮短用戶在網絡上的訪問延遲,使得提供給用戶的網絡信息服務質量得到最大限度的提高。后者則通過離線修改實施改進,用以優化用戶瀏覽體驗,提高當前站點信息獲取的整體效率,同時提高用戶滿意度和忠誠度。2 基于Web挖掘的路徑優化模型
Web挖掘從數據挖掘發展而來,但Web挖掘與傳統的數據挖掘相比有許多獨特之處。首先,Web挖掘的對象是大量、不同和分散型的Web文件;其次,Web文件本身是半結構化或無結構的,因此Web挖掘所得到的模式可能是關于內容的,也可能是關于結構的;最后,有些數據挖掘技術并不適用于Web挖掘,即使可以用也需要建立在對Web文件進行預先處理的基礎之上[3]。
2.1 訪問序列挖掘實現過程的理論分析
為了跟蹤用戶以往瀏覽的網頁,對網頁訪問數據進行挖掘,Web挖掘技術以Web日志為數據源。因為每當用戶在點擊鏈接向站點發出頁面瀏覽請求時,該用戶的IP地址、瀏覽日期和時間、瀏覽頁面URL及引用頁面等信息會被記錄在Web日志中,用戶瀏覽點擊頁面就按照時間順序以頁面URL序列的形式隱藏在Web日志中[4]。用戶訪問序列挖掘即通過對Web日志進行系統的分析和預處理,將用戶以往的瀏覽序列從日志中提取及表示出來,并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網頁瀏覽順序,探索總結出用戶瀏覽網頁的規則和模式。在獲得用戶瀏覽規律之后,通過模式分析識別用戶需求的鏈接,確定用戶瀏覽行為的目標就可以提高用戶瀏覽的總體性能,幫助改進網頁的設計和網站的鏈接結構,同時確定可以用于緩存的瀏覽網頁信息[5]。
從服務器的角度分析,挖掘發現的是提供服務的網站的信息,挖掘結果可以幫助改善網站的設計。從用戶的點擊序列分析,可以發現一個(或者一組)用戶的信息,可幫助實現網頁的預存取和緩存[6]。
2.2 站點路徑優化的模型構建
以Web日志為數據源進行的站點路徑優化的挖掘模型,采用了數據挖掘及Web日志挖掘的相關技術和算法獲取用戶瀏覽規則與模式,為網絡結構優化、站點重構提供參考及個性化服務推薦設計提供了依據。據此站點路徑優化的模型可分為數據預處理和站點路徑優化實現兩個部分,站點路徑優化部分可從兩個方面來考慮[7]:一是通過對Web日志的挖掘,發現用戶的期望位置。如果在期望位置的訪問頻率高于實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導航鏈接,從而實現對Web站點的優化。二是通過對Web日志的挖掘,發現用戶訪問頁面的相關性,從而對密切聯系的頁面之間增加鏈接,方便用戶使用。如圖2所示。
圖2 利用Web挖掘技術的路徑優化模型
3 站點路徑優化的實現
3.1 Web日志數據收集
Web服務系統是一個多層次的邏輯結構,包括客戶端、辦理服務器端、Web服務器端。本文挖掘的是本站點用戶的頻繁訪問路徑、用戶聚類等,因此適合采用Web服務器端的用戶訪問模式挖掘[8]。Web服務器日志由三部分組成:訪問日志、引用日志和辦理日志,包括用戶訪問Web站點時,所訪問的頁面、時間、用戶ID等信息。
3.2 站點數據預處理
Web站點及訪問數據預處理部分主要包括站點結構數據預處理、內容數據預處理和Web日志數據預處理。其中,結構數據預處理的任務是描述站點的拓撲結構圖、站點頁面文件鏈接有向圖,并明確站點各個頁面文件鏈接的請求(Request)方法,如GET、POST、HEAD等。站點內容數據預處理包括將文本、圖片、腳本和其他多媒體文件轉變為用戶對站點瀏覽模式記錄信息的開發與利用有用的格式[9]。
用戶訪問序列挖掘的Web日志數據源預處理包括數據過濾、格式轉換、用戶識別、會話識別、路徑補全和事務識別,預處理過程是保證后繼挖掘質量的關鍵。
3.3 基于Web日志挖掘的路徑優化實現
在數據預處理之后,對所形成的用戶會話文件,利用數據挖掘的一些有效算法(如關聯規則、聚類、分類、序列模式等)來發現隱藏的模式規則。由于傳統的手工決策規則系統方法、基于內容的過濾辦理系統方法、協作過濾系統方法的種種不足,并且就分析和建立模型的技術而言站點路徑挖掘和傳統的數據挖掘差別并不是特別大,所以路徑優化模式除了可以運用Web數據挖掘的很多方法和算法思想,也可以采用一般的統計方法和在線分析處理方法,如聚類分析方法、關聯規則分析方法和序列模式分析方法等[10]。
站點路徑優化可以分為兩類:用戶群訪問模式挖掘的路徑優化和個性化挖掘的路徑優化。一般訪問模式挖掘的路徑優化通過分析在特定時間點的特定用戶群的訪問記錄來了解用戶的瀏覽模式和傾向,以改進站點的組織結構;而個性化挖掘的路徑優化則傾向于分析個別用戶的偏好,其目的是根據用戶的訪問模式,為其提供定制服務。
3.3.1個性化的瀏覽路徑優化。Web站點的鏈接結構是Web設計者根據一定的策略建立起來的,可能與用戶期望的鏈接結構之間存在一定的差距。如圖3.1所示,目標頁面X放在頁面B1下,但是用戶瀏覽路徑是F→A2→B2,因此用戶期望頁面X的位置在A2或B2下。如果事先能了解用戶的期望位置,從而在A2(或B2)和頁面X之間建立導航鏈接,自然就方便了用戶,提高了網站的訪問效率[1]。
(1)發現用戶期望位置。
設{P1,P2,...,Pn}為用戶訪問過的頁面,Pn是一個目標頁面,B=Ф;∥B為回溯點的集合;
圖3 用戶訪問站點路徑
For(i=2;i<=n-2;i++)
{if(Pi-1=Pi+1) or (no link from Pi to Pi+1) add Pi to B} ∥Pi是一個回溯點;
If (B not empty) add n,B,Pn-1> to table;
通過該算法,就可以找到用戶的返回點,這個位置可能是期望位置,也可能是目標頁面,但可以通過確定時間閾值來解決這個問題。當用戶在返回點停留的時間較長,超過指定的閾值,則認為該頁面是目標頁面,否則可以認為該頁面是期望位置。通常用戶在瀏覽Web站點時,在第一期望位置找不到目標頁面,就會在第二期望位置找,如果還找不到,會在第三期望位置找……,其中最受關心的是第一期望位置,而且是那些被第一期望且發生頻率高于系統設計者指定值的所有頁面。因此,尋找第一期望位置便成了我們關注的焦點[12]。
(2)目標位置和期望位置的判定。設Ei表示第一期望位置,算法如下:先以用戶的ID為主關鍵字,時間為次關鍵字,對Web日志文件建立索引,掃描Web日志索引文件,對每一個用戶ID,摘取出頁面序列。
For (I=1;I<=1;I++)∥n為Web日志中的記錄數
{統計Ei中所有頁面支持數;
Sort page by support;
If support(P)>=SI ∥SI為Web設計者制定的閾值;
則P為被第一期望且發生頻率高于系統設計者指定值的頁面}
經過提取目標頁面與期望位置之后,將形成如表1的目標頁面與期望位置匹配集[13]。
(3)調整站點結構。根據該算法的挖掘結果,很多內容頁面(目標頁面)的實際位置與用戶所期望的位置不一致,可以考慮依據這些目標頁面的用戶期望位置來調整目標頁面的實際位置。第一期望位置、第二期望位置……這些頁面從某種角度看是圍繞同一主題展開的,訪問了其中部分頁面的用戶往往也會訪問其他頁面,因此可以在這些頁面之間設置推薦鏈接。
3.3.2 用戶群訪問模式的路徑優化。對用戶群訪問模式的問題,采用挖掘頻繁訪問的最大序列的方法可以挖掘出更有普遍意義的模式,算法包括有Apriori算法,最大向前序列法,參考長度法和樹形拓撲結構法等。它們先將日志中的用戶瀏覽歷史記錄轉換成一個瀏覽子序列集:最大向前序列法根據用戶折返的特性形成若干瀏覽子序列;參考長度法根據用戶在網頁上停留的時間形成若干個瀏覽子序列;樹形拓撲結構法則把整個日志當作瀏覽子序列。然后利用關聯規則法對瀏覽子序列進行挖掘找出頻繁訪問路徑。頻繁瀏覽路徑就是指按照一定順序組成的網頁序列集,用戶依照此序列訪問網站的頻度很高。
根據頻繁訪問路徑算法得到頻繁訪問路徑FP,對應記錄為X(fp,np),其中fp表示URL組成的序列,np表示瀏覽路徑集合中FP出現的次數[14]。
for all X∈FP
for all Y∈FP and Y≠X
if X. fp∈Y. fp. sub then X.np=X.np-Y.np
∥ 檢查X. fp是否為另一記錄Y. fp的子序列
If X. np > n
∥ n為預先設定的次數閾值
set Suplnik( X . fp)
∥設計新的從X. fp起點指向終點的超鏈。
該方法可以用于重構Web站點的頁面之間的鏈接關系,及重構Web站點的拓撲結構、發現相似的客戶群體,開展個性化的信息服務和有針對性的電子商務活動,應用信息推拉技術構建智能化Web站點。
4 結 語
站點路徑優化就是通過Web挖掘技術來收集和統計用戶訪問過的歷史數據,挖掘當前用戶頻繁訪問的頁面序列,對個體用戶獲取其興趣模型,以便在用戶以后的訪問過程中根據興趣模型自動向用戶推薦內容,指導用戶的瀏覽行為,提高瀏覽信息效率。對群體用戶獲取其訪問路徑規則與模式,通過增加超鏈改進站點結構,將頁面加入緩存提高訪問速度,提高用戶對站點訪問的滿意度[15]。訪問規律的獲取對算法提出了較高的要求,可以借鑒現有模式發現算法實現瀏覽結構的優化。
[參考文獻]
[1] 程舒通,徐從富,但紅衛. 基于改進頻繁模式聚類算法的網站結構優化[J]. 計算機應用研究,2008(4):268—269.
[2] 陽小華,周龍鑲. 基于用戶訪問模式的WWW瀏覽路徑優化[J]. 軟件學報,2001(6):847—850.
[3] 繆 勇. 匿名用戶瀏覽路徑挖掘研究與實現[D].南京理工大學,2006.
[4] 阮備軍. Web使用挖掘若干關鍵問題研究[D]. 復旦大學,2004.
[5] 張素蘭,楊炳儒,范艷梅. 一種基于圖結構挖掘WEB用戶訪問模式的方法[J]. 計算機工程與應用,2004(12):37—39.
閱讀范文:計算機教學論文淺析網絡環境下軍事信息安全
摘要:在軍事活動中,軍事信息的交流行為越來越效繁,局城網,廣城網等技術也逐步成為了軍事活動中不可或缺的內容,信。息的劫持與反劫持等安全技術占據了一個舉足輕重的地位。本文擾為了保證我軍軍事秘密這個大前提,對網絡壞境下軍事信息安全加以闡述.
論文關鍵詞:軍事信息 信息安全 網絡環吮