手机看片精品高清国产日韩,色先锋资源综合网,国产哺乳奶水91在线播放,乱伦小说亚洲色图欧洲电影

幫助中心 >  行業資訊 >  其他 >  一種面向大數據主動防御的低損耗數據采集方法

一種面向大數據主動防御的低損耗數據采集方法

2021-04-28 18:32:07 4990

隨著大數據技術的日益成熟,圍繞大數據的應用呈現出了多種多樣的特點,使得大數據的流轉更加錯綜復雜,導致了數據暴露出更大的受攻擊面。同時,大數據在全生命周期過程中呈現出了類型動態化、等級多樣化、權屬復雜化、使用實時化等特點,這些特點都導致了大數據環境下的安全威脅攻擊手段多樣化,攻擊程序不斷更新迭代,使得大數據在全生命周期過程中被竊取、被濫用、被篡改的風險不斷增大。傳統的安全手段及體系呈現出的單點、靜態、被動防護的特點已不能有效應對大數據環境下的安全威脅。在這種趨勢的推動下,安全防御思想正在從“以網絡為中心”向“以數據為中心”轉變,安全防御體系正在從單點、靜態、被動防護向全面、動態、主動防護轉變。

在圍繞大數據全生命周期安全的主動防御體系中,主動防御所需采集數據的種類多、數據量大,應盡量減少對采集系統資源的占用率,不影響被防御對象系統的正常運行,因此,數據采集效率對整個防御體系的準確性、實時性和高效性至關重要。

針對上述問題,特別是面向大數據分析應用場景,本文提出了一種面向大數據主動防御的低損耗數據采集方法。該方法采用無代理帶外采集方式,結合虛擬機內省機制,從大數據分析節點中的虛擬機外部對虛擬機內部的數據進行采集,僅采集安全防御所需數據,不僅提高了數據采集的效率,而且有效降低了大數據分析節點網絡資源和虛擬機計算資源的占用率,從而實現低損高效的數據采集目的。

一、主動防御系統數據采集架構

大數據主動防御系統數據采集架構如圖1所示。


1.png

圖1 大數據主動防御系統數據采集架構


在一個典型的面向大數據環境下的主動安全防御系統中的采集系統主要包括三類數據:網絡、終端、大數據分析節點。目前,針對大數據環境下的網絡和終端的數據采集技術相對成熟。網絡流量主要以探針的方式進行數據采集,采集技術主要有:基于SNMP的采集技術、基于流的采集技術和基于數據包抓取的采集技術;終端主要以代理或探針方式進行數據采集,終端采集代理或探針主要通過輕量化軟件容器實現;大數據分析節點由于部署在虛擬機上,數據采集方式以帶內采集方式為主,該方式的典型做法是基于主機的入侵檢測系統,由中心采集程序和植入虛擬機的代理程序組成,是一種松耦合的方法。帶內采集方式由于使用了采集程序和代理,會占用一定的虛擬機資源,占用量高時會嚴重影響到虛擬機的正常運行,而且更易于被攻擊和被繞過而導致數據采集失敗,這些問題都會嚴重影響主動防御系統的響應效率和防御效能,甚至導致防御失敗。

針對這些問題,本文提出了一種高效低損的數據采集方法,該方法基于虛擬機內省技術,通過虛擬機監控層從外部對虛擬機內部進行選擇性的數據采集和監控,實現了高效低損的采集效果。同時,由于帶外采集對虛擬機內部是透明的,虛擬機內部無法感知到帶外監控程序,因此本方法還具有更高的安全性。

二、基于虛擬化的數據采集技術

在大數據系統部署的過程中,為了實現高效的計算和存儲能力,一般大數據計算集群和存儲集群分開部署,將計算集群部署在云計算平臺上,在這種部署情況下,為了實現大數據環境下的主動防御能力,需要對計算集群進行高效的數據采集和分析。在虛擬化環境下,從數據采集實現技術的角度看,采集方法主要有兩種:帶內采集(In-band)和帶外采集(Out-of-band)。

帶內采集是指從虛擬機內部進行數據采集。如圖2所示,該方法主要通過在虛擬機中加載代理模塊攔截虛擬機內部事件來實現。該方法的優點在于事件攔截是在虛擬機內部,可以直接獲取操作系統語義,獲取的語義精準且不需要進行語義重構,因此減少了性能開銷;缺點是容易遭受惡意軟件的攻擊和控制,容易成為新的安全隱患點,而且代理模塊采用加載的方式容易被用戶終止而輕松繞過。


2.jpg

圖2 帶內采集(In-band)


帶外采集是指從虛擬機外部,在虛擬機管理器中對虛擬機中的事件進行攔截,從而實現對虛擬機數據的采集。由于帶外采集是在虛擬機管理器中執行,位于目標虛擬機的底層,可將數據采集單元與目標虛擬機隔離開來,數據采集對目標虛擬機是不可感知的,因此增強了數據采集單元的安全性。與帶內采集相比,帶外采集具有更高的安全性,但其存在虛擬機內部的真實狀態與虛擬機外部抽取信息之間的語義鴻溝問題,也就是如何將從外部抽取的低層信息(寄存器值、系統調用、I/O請求等)轉譯成高層信息(進程、文件等)。如圖3所示,這種從虛擬機外部監控虛擬機內部的方法稱為虛擬機內省(virtual machine introspection,VMI)。


3.png

圖3 帶外采集(Out-of-band)


三、低損耗數據采集方法

通過結合帶內和帶外數據采集方法的優點,本文提出了一種基于虛擬機內省機制,面向大數據主動防御的低損耗數據采集方法。

1.基于虛擬機內省的數據采集框架

本方法的主要思路是采用虛擬機內省技術在虛擬機監控器中設計數據采集監控模塊,通過監控模塊從虛擬機外部對虛擬機內部信息進行采集,為了避免語義鴻溝問題,設計一個采集注入模塊,在虛擬機啟動時,通過將采集代碼注入目標虛擬機內存中,按照采集策略對所需數據安全信息進行采集,因此無須進行語義轉換。低損耗數據采集方法的整體技術框架如圖4所示。


4.png

圖4 基于虛擬機內省的數據采集框架


低損耗數據采集方法主要包括四個部分:策略設置模塊、數據采集模塊、采集注入模塊和采集注入代碼。其工作流程說明如下:

Step1:虛擬機啟動時,虛擬機監控器通過采集注入模塊將采集代碼以無感方式注入目標虛擬機的非換頁內存中,保證代碼不會被換出;

Step2:在虛擬機運行過程中,數據采集監控服務平臺管理員設置目標虛擬機的數據采集策略,采集策略管理模塊將制定好的策略下發至虛擬機監控器的策略設置模塊;

Step3:策略管理模塊通過采集注入模塊將策略下發至目標虛擬機的采集注入代碼中;

Step4:采集注入代碼根據策略,采集進程、文件操作、磁盤訪問等信息;

Step5:采集注入代碼將采集的信息定時或按照一定的數據量發送給數據采集模塊;

Step6:數據采集模塊將采集數據進行清洗后,按照標準格式發送給數據采集監控服務平臺。

 數據采集監控服務平臺將接收到的采集數據進行數據處理和數據分析,將發現的數據和進程異常行為及時上報主動防御系統,主動防御系統根據接收到的威脅信息調整防御策略并進行相應的協同防御。

2.數據采集優化

數據采集模塊位于虛擬機監控器,利用虛擬機內省機制(LibVMI)實現虛擬機內部數據的外部采集。LibVMI是美國佐治亞理工學院的Payne等設計的一套開源內省工具庫,如圖5所示,該工具不需要對虛擬機監視器進行修改,而是直接利用虛擬機監視器提供的接口對虛擬機底層信息(進程頁表、內存映射等)進行重構,獲取虛擬機高層信息(進程信息、內核數據),從而實現監控虛擬機的行為和狀態,這種方法對虛擬機影響最小。


5.png

圖5 數據采集模塊


基于虛擬機內省機制的LibVMI也存在語義鴻溝問題,為了避免該問題,本方法設計了采集注入代碼模塊,該模塊在虛擬機啟動時以無感的方式通過采集注入模塊注入虛擬機非換頁內存區域中,通過注入代碼直接采集虛擬機的高級信息,因此不需要進行語義轉換,從而解決了資源消耗問題。同時,為了提高數據采集效率,并進一步減小對目標虛擬機內存的占用率,對采集注入代碼進行了優化,設計了一種閾值綜合判定規則,該規則綜合考慮了采集時間(C)和資源占用率(S)兩個因素,資源占用率的閾值(T)一般為目標虛擬機內存的1%,該閾值可根據用戶需要進行設定,采集時間間隔(I)由管理員設定,按照資源優先原則,首先判斷資源占用率,如果S>T,則數據輸出,否則,如果C>I,則數據輸出。

通過上述的優化過程,從系統層面到采集實施層面均對整體數據采集進行了優化,保障了采集效率和效果的有效權衡。

四、效果分析

實驗采用服務器配置:

CPU:Intel Xeon E5-2630 2.4 GHz

內存:64 GB

硬盤:2 TB

操作系統:CentOS 7.2 64位

軟件:yum、libvirt、qemu-kvm、LibVMI

采集數據如表1所示。


表1 采集數據表

6.png


1. 采集效率

本文設計的數據采集優化方法采用了內存注入代碼方式,可直接從目標虛擬機內部采集數據,經過測試,通過對數據采集1 000次并取平均值計算,數據采集時間為0.002 s,而采用代理程序方式的采集時間為0.6 s,采集效率提升了100倍,實現了高效的數據采集能力。

2. 采集效果

通過測試,在目標虛擬機內存占用率方面,本文方法內存占用量為56 KB,采集代理程序內存占用量為1.2 MB,在內存占用量上減少了95%;測試采集9 MB數據,目標虛擬機內存為1 GB,本文方法內存占用量為9.056 MB,內存占用率小于1%,而采集代理程序內存占用量為10.2 MB,內存占用率大于1%,說明在采集相同數據量的情況下,本文方法具有更低的資源占用量,保障了目標虛擬機的高效運行。同時,采集的數據可根據采集策略進行采集,故可根據防御的需求隨時更改采集的數據內容,保障采集內容的完備性,并可根據需要設定采集時間間隔,可動態滿足主動防御需求。

通過實驗分析,本方法從采集效率和效果上均達到了一種高效、低損的數據采集能力。

五、  結 語

本文圍繞大數據全生命周期安全的主動防御體系對數據采集的準確性、實時性和高效性的需求,設計了一種基于虛擬機內省機制的高效低損的數據采集方法。該方法結合了帶內采集和帶外采集的優點,從主動防御系統的整體出發,從采集效果和采集效率上對采集模塊進行了優化,保證了數據采集的完備性和高效性,通過虛擬機內省機制和資源占用閾值的設定,保障了對虛擬機本身資源占用率的最小化。本文設計的方法為大數據主動防御系統的構建提供了良好的支撐。



提交成功!非常感謝您的反饋,我們會繼續努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務,我們很需要您進一步的反饋信息:

在文檔使用中是否遇到以下問題: