网络爬虫多特征的恶意网页检测方法(2)

1。1 课题背景与意义

在现今互联网快速发展的时代，各个年龄段阶层的人在网上进行例如浏览新闻、观看视频、社交等各种活动。互联网在给人们带来极大便利的同时，也带来了巨大的未知的一些安全风险。一些网络攻击者会利用网络漏洞，将网站变为恶意网站，当人们登录浏览此网站时，计算器就很有可能不被察觉地被入侵，而导致系统的崩溃。当控制了计算机系统之后，攻击者可以轻易地把关联网络组成僵尸网络，对互联网上的任意站点发动 DDOS 攻击（分布式拒绝服务攻击）、大范围的发送海量垃圾电子邮件（Spamming）、窃取被控计算机系统的信息或利用不真实的虚假点击通过欺诈来牟取经济利益等[2]。谷歌公司的 Neils Provos[3]表示，谷歌在对过去一年互联网上几十亿页面进行分析后得出，超过百分之十的网页是恶意网页。这意味着网页信息所带来的安全风险已经是一件不能再忽略的事。在历史互联网安全事件中，由于恶意网页中的恶意代码造成的经济损失所占所有时间中的损失的比例是最大的[4]。

以往的恶意网页中最普遍的的恶意形式是网页挂马和病毒，它们利用用户端的客户端程序，通过隐藏在浏览器和系统中的安全漏洞来攻击用户的计算机系统。恶意网页由HTML语言组成，其中往往被嵌入恶意代码以及相关的一些小程序，例如JavaApplet，JavaScript，ActiveX程序等。这些恶意程序会破坏计算机用户的系统，导致系统资源的非法控制，同时窃取用户的文件造成信息丢失。黑客利用各种非法手段引诱用户使用恶意网站的设置，是用户的计算机中病毒或者木马，从而窃取信息，严重威胁用户的信息安全。

同时，广告软件一类的恶意攻击手段也是越来越流行，它采用了多种欺骗利用虚假广告和垃圾邮件传播病毒。与此同时，它们还伪装成广告公司中的广告来逃避定期的检测。恶意广告通过法律的基础知识储备，发布在线的网络贴条广告，大量的免费用户会不自觉的点击它们，但是与此同时恶意网页中的恶意代码脚本也通过它们感染了用户并快速广泛传播出去。

根据现今恶意网页对我们安全信息环境的影响，一个有效的恶意网页检测方法十分需要。恶意网页检测可以有效地检测隐藏的恶意链接及代码，维护网站的稳定性和安全性，在国防、政府、教育、金融、电子商务这些领域有很高的安全价值。

1。2 恶意网页相关检测

1。2。1 恶意网页简介

恶意网页就是携带了包括病毒，恶意脚本等等在内的可以进行传播和攻击的网页[5]。它们包含在网页中，通过不同的方式来模糊代码规避检测。有些恶意网页的脚本不同于传统的一些脚本。网页恶意脚本是一种非法的控制系统资源的恶意程序[6]。操作系统或者一些软件中的漏洞导致这些恶意脚本无意中就嵌入到了网页中并被自动执行。

1。2。2 相关检测技术

恶意网页检测通常可以分为静态检测（基于网页网址和网页信息源代码）和动态检测（基于用户对网页浏览时的一些操作），以及两者混合的方法[7]。

1 基于植入特征的检测

黄建军等人[8] 提出了，通过检测web框架中的某一些功能代码，来确定其是否是恶意代码。然而只要代码的特征有所改变，就很难找到包含例如恶意JavaScript代码的恶意网页。

2 基于蜜罐的检测

Lance Spitzner[9] 在 2004 年 7 月提出了 HoneyClient(即客户端蜜罐)这个概念。蜜罐是一种密切监视的计算资源。它相当于是引诱蜜蜂的糖罐，其中的蜜相当于一个个漏洞，来引诱一些有不良居心的黑客来攻击网页。当黑客们进入到蜜罐中进行一些恶意操作时，他们的行为和操作会被一点一滴的记录下来。最终我们可以掌握攻击者的进攻和手段训练样本。以往的大部分蜜罐都指的是服务器端蜜罐。然而传统的检测技术无法满足客户端的恶意网页代码运行情况，由此客户端蜜罐就应运而生。客户端蜜罐便是在客户端网页运行时的新检测，它可以监控非法行为，综合分析未来可能的恶意行为，寻找可能存在的漏洞，实现科研工作安全的目的。网络爬虫多特征的恶意网页检测方法(2):http://www.youerw.com/jisuanji/lunwen_97168.html