色狠狠色噜噜AV天堂五区又黄,日韩精品外围在线,日本中文一区二区

華為云計(jì)算云知識(shí) 基于源碼的二進(jìn)制SCA特征生成技術(shù)

基于源碼的二進(jìn)制SCA特征生成技術(shù)

時(shí)間: 2021-11-08 14:40:58

猜你想看：

實(shí)時(shí)語音識(shí)別云服務(wù)器配置 CDN是什么意思視頻點(diǎn)播加速什么是云桌面

【摘要】二進(jìn)制SCA檢測(cè)技術(shù)在安全審計(jì)、漏洞檢測(cè)中起到了很大作用，業(yè)界二進(jìn)制SCA檢測(cè)技術(shù)基本原理都是基于特征庫(kù)，利用算法進(jìn)行相似度計(jì)算，從而檢測(cè)出二進(jìn)制程序中引用了哪些開源軟件及對(duì)應(yīng)的版本號(hào)信息，因此特征庫(kù)的全面性和及時(shí)性對(duì)二進(jìn)制SCA檢測(cè)結(jié)果起到至關(guān)重要的作用，本文簡(jiǎn)單闡述如何基于源碼來生成二進(jìn)制SCA特征。

檢測(cè)原理及流程簡(jiǎn)介：

在二進(jìn)制SCA檢測(cè)原理中提到對(duì)于常量字符串、部分類名稱、函數(shù)名稱、以及一些配置信息還是存在的，并且這些信息具備一定的不變性；因此二進(jìn)制SCA工具其中的一部分特征來源就包含這些信息。因此在特征庫(kù)保存有每個(gè)開源軟件的特征，二進(jìn)制SCA工具在檢測(cè)時(shí)會(huì)從待檢測(cè)二進(jìn)制文件中提取出特征，通過算法和特征庫(kù)的保存的開源軟件特征進(jìn)行相似度計(jì)算，從而判斷該二進(jìn)制文件中引用了哪些開源軟件及對(duì)應(yīng)的版本號(hào)。
關(guān)于什么是SCA安全測(cè)試技術(shù)和檢測(cè)原理可以參看我前面博客：
【查看SCA安全測(cè)試技術(shù)詳情>>>】
【查看二進(jìn)制SCA檢測(cè)原理詳情>>>】

二進(jìn)制SCA檢測(cè)處理流程：

從檢測(cè)流程和方法中可以看出特征庫(kù)中保存的特征來源并沒有規(guī)定一定從二進(jìn)制文件中生成，而是只要滿足特征庫(kù)中的特征必須和二進(jìn)制中生成的特征要一致，因?yàn)橛?jì)算相似度時(shí)其中一個(gè)輸入的特征是從二進(jìn)制文件中提取到的。很明顯特征庫(kù)中特征來源無非就2條路徑：一條來自二進(jìn)制文件，另外一條那就是來自生成二進(jìn)制的源代碼。

不同特征來源優(yōu)缺點(diǎn)比較：

1. 二進(jìn)制文件特征提取優(yōu)點(diǎn)：
基于二進(jìn)制文件來提取特征具有提取方便，和檢測(cè)時(shí)提取方法一致，不需要額外開發(fā)提取工具和提取算法。

2. 二進(jìn)制文件特征提取缺點(diǎn)：

● a. 二進(jìn)制文件首先需要由源代碼編譯出來，而搭建構(gòu)建編譯環(huán)境可能會(huì)很復(fù)雜，需要很多額外的工作量，效率低；

● b.由于編譯宏的原因，由源代碼生成的二進(jìn)制文件并不一定是全量源代碼都包含中其中的，可能只有部分源代碼參與生成最終的二進(jìn)制文件；

● c.由于構(gòu)建依賴的原因，二進(jìn)制文件中包含有依賴對(duì)象的信息，也就是說包含有源代碼之外對(duì)象的信息，這會(huì)導(dǎo)致提取到的特征純度不足，直接影響到檢測(cè)結(jié)果的準(zhǔn)確性；

3. 源碼特征提取優(yōu)點(diǎn)：
正好可以解決從二進(jìn)制文件中生成特征的短板問題，不需要編譯可以大大提升自動(dòng)化出來水平和提取效率，提取到的特征只限于源代碼中的特征和其他無關(guān)，提取到的特征純度很高。

4. 源碼特征提取缺點(diǎn)：
針對(duì)不同語言類型需要額外開發(fā)相應(yīng)的特征提取工具來實(shí)現(xiàn)特征提取，開發(fā)工作量大，且不同語言的特征提取工具開的發(fā)難度也不一樣，對(duì)開發(fā)者是一個(gè)挑戰(zhàn)。

基于源碼的特征生成方法：
不同語言具有不同的特點(diǎn)，在考慮基于源碼的特征生成方法時(shí)需要考慮到語言特點(diǎn)來采用針對(duì)性的方法來解決，這樣可以起到事半功倍的作用。下面針對(duì)不同語言分別來說明對(duì)應(yīng)的解決方法：

● C語言：沒有類的復(fù)雜性，在構(gòu)建時(shí)只要用到的源碼文件，該文件中的所有函數(shù)信息都會(huì)被一起編譯進(jìn)二進(jìn)制文件中。

● C++語言：引入了類的復(fù)雜性，在構(gòu)建時(shí)只要引用了類的實(shí)例，該類信息才會(huì)被編譯到二進(jìn)制文件中，而不像C語言一個(gè)源代碼文件是一個(gè)整體來處理的。另外類中的構(gòu)造函數(shù)和析構(gòu)函數(shù)會(huì)被編譯器自動(dòng)引入在二進(jìn)制文件中，從而出現(xiàn)源代碼和二進(jìn)制文件不一致情況。

● Java語言：也存在類的復(fù)雜性，特別是嵌套類和內(nèi)部類的情況，這也導(dǎo)致源代碼特征和二進(jìn)制特征之間的處理難點(diǎn)。

● Go語言：具備依賴管理機(jī)制，但編譯出來的二進(jìn)制文件卻和C、C++一樣具有PE、ELF格式，go語言的模塊特性也帶來了源碼提取的特征和二進(jìn)制之間的差別，此外go語言相比C、C++來說更容易生成對(duì)應(yīng)源代碼的抽象語法樹AST。

● Python語言：也具備依賴管理機(jī)制，但pyc和pyd之間差別很大，pyc是字節(jié)碼格式可以很方便的進(jìn)行反編譯，但pyd則像C、C++一樣是指令碼式文件，因此特征提取方法完全不一樣，同樣也帶來了源代碼提取特征和二進(jìn)制提取特征之間的不一致問題需要解決，比如：1. python源碼在編譯成pyc時(shí)有一些編譯優(yōu)化，在源碼提取特征時(shí)要加入編譯優(yōu)化，且不同版本編譯優(yōu)化有差異，統(tǒng)一使用最多的編譯優(yōu)化提取源碼特征并且pyc文件提取特征時(shí)也需要進(jìn)行適當(dāng)?shù)膬?yōu)化；2. python不同版本同一代碼翻譯成的指令序列不一樣，pyc提取特征時(shí)要兼容多個(gè)版本；3. py2、py3的pyc中字符串的編碼方式不一樣，而且unicode的支持范圍不一樣，需要保證字符串特征提取一致；同樣Python源代碼也相對(duì)容易的可以生成對(duì)應(yīng)源代碼的抽象語法樹AST。

● 另外對(duì)于C、C++源代碼由于存在依賴和構(gòu)建環(huán)境的原因而導(dǎo)致源代碼無法編譯，而很多工具需要能編譯成功才能獲取到AST的，比如CDT、Clang等，在這種情況下就沒法使用了，必須使用具備詞法分析和語法分析能力的工具來獲取特征相關(guān)一些數(shù)據(jù)，比如cppcheck工具。不管是基于AST還是詞法、語法分析輸出數(shù)據(jù)，都需要自己在此數(shù)據(jù)的基礎(chǔ)上開發(fā)相應(yīng)的數(shù)據(jù)分析工具來提取到最終的開源軟件特征，并且該特征數(shù)據(jù)和從二進(jìn)制文件中提取到的特征數(shù)據(jù)具有很好的一致性要求。

總結(jié)：只有具備從源碼中生成上述特征，才能充分利用源碼特征提取優(yōu)點(diǎn)，進(jìn)行自動(dòng)化的特征提取，提升特征提取效率，快速實(shí)現(xiàn)對(duì)新出現(xiàn)開源軟件的檢測(cè)能力。

文末福利：華為云漏洞掃描服務(wù) VSS 基礎(chǔ)版限時(shí) 免費(fèi)體驗(yàn) >>>

上一篇：從MindSpore手寫數(shù)字識(shí)別學(xué)習(xí)深度學(xué)習(xí) 下一篇：華為云數(shù)字內(nèi)容生產(chǎn)線是什么？

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

最新文章