什么是网页检测浅谈恶意网页检测?

营销圈公众号引导关注

概述

目前网页浏览是互联网上使用率最高的网络服务之一,恶意网页也层出不穷。有诱骗用户访问以获取用户个人秘密信息的钓鱼网页,通过构造与某一目标网站高度相似的页面,以垃圾邮件、虚假广告等方式存在;黑客还会通过恶意破坏或更改网页内容或在网页中植入黑链,使网站无法正常工作或出现非法插入的非正常网页内容。

传统的恶意网页检测方法多为网页异常检测基于黑白名单的检测。网页异常检测和黑白名单检测基于规则匹配,时效性较差,且黑白名单范围也存在不足,且由于HTML语言的灵活性,黑客可以轻易做出看起来一样但HTML结构完全不同的网页;基于图像特征的异常检测基于网页内容相似性,准确性和鲁棒性不是很理想。

基于上述问题,本文将机器学习算法引入恶意网页检测,介绍一种基于特征词的恶意网页检测方法。

特征词抽取

本文的网页样本数据分为三类:正常网页源码钓鱼网页源码被黑页面源码,数据组成如下所示:

什么是网页检测浅谈恶意网页检测?

表1 数据组成

其中,正常样本标记为n(代表normal),钓鱼样本标记为p(代表phishing),被黑页面标记为d(代表dark)。针对网页源码文件,本文采用抽取文本的方式生成新样本集,利用各类数据的特征词区分正常网页和恶意网页。

首先,利用正则匹配出网页中的文本,通过对高频文本和标题的人工统计,可以看出钓鱼页面的文本和被黑页面(多为被挂暗链的网页)的高频特征词如下所示:

什么是网页检测浅谈恶意网页检测?

表2 高频词统计

利用hanlp分词后,钓鱼页面中特征词多为QQ、支付宝和银行卡等相关信息,被黑页面多为被挂暗链,存在涉及赌博、游戏相关高频词。

通过在语料库中的词频,挑选出最重要的3000个词进行分类判断,计算其TF-IDF值形成向量矩阵,作为新特征集进行分类。

检测方法

由表1可知,目前样本仍存在样本分布不平衡的问题。在分类任务中,在数据分布均匀的前提下,模型才能发挥出更好的效果。但是在我们实际的应用场景中,我们的数据往往达不到这样理想的情况。针对数据不平衡问题,采样能够使数据集趋向平衡,总体上采样分为欠采样过采样,过采样使小类别样本数据量增加,欠采样减少大类别样本的数据量。简单的欠采样会损失数据,过采样会导致模型的过拟合。因此为了使分类器发挥出最好效果,本文采用EasyEnsemble算法解决上述问题。

EasyEnsemble算法是一种有效的不均衡数据分类方法。它将多数类样本随机分成多个子集,每个子集分别与少数类合并,得到多个新的训练子集,并利用每个训练子集训练一个AdaBoost基分类器,最后集成所有基分类器,得到最终的分类器。EasyEnsemble算法有效解决了数据不均衡问题,且减少欠采样造成的多数类样本信息损失。

本文将数据样本划分为比例为7比3的训练集和测试集,采用EasyEnsemble算法做分类且引入了决策树,选取了SAMME算法,采用500个弱分类器训练基于决策树的Adaboost,最终测试准确率达到98%,泛化能力相比单个决策树较出色。

好了,这篇文章的内容营销圈就和大家分享到这里,如果大家网络推广引流创业感兴趣,可以添加微信:Sum8338 备注:营销圈引流学习,我拉你进直播课程学习群,每周135晚上都是有实战干货的推广引流技术课程免费分享!

好了,这篇文章的内容营销圈就和大家分享到这里,如果大家对网络推广引流和网络创业项目感兴趣,可以添加微信:Sum8338 备注:营销圈引流学习,我拉你进直播课程学习群,每周135晚上都是有实战的推广引流技术和网络创业项目课程分享,当然是免费学!

版权声明:本站部分文章来源互联网用户自发投稿,主要目的在于分享信息,版权归原作者所有,不承担相关法律责任。如有侵权请联系我们反馈邮箱yingxiaoo@foxmail.com,我们将在7个工作日内进行处理,如若转载,请注明本文地址:https://www.yingxiaoo.com/190919.html