Powered by GitBook

PAYL: Anomalous Payload-based Network Intrusion Detection

背景信息和本文目标
数据
特征
PAYL
局限性
参考资料

背景信息和本文目标

现有的 IDS 失败于
- 0-day
- 缓慢且隐蔽的蠕虫传播
检测通过网络传播的 0-day 蠕虫或病毒代码的第一次出现
- 签名失效
- 缓慢隐蔽的蠕虫病毒传播能避免在网络中爆发，或被检测
- 需要基于载荷的检测

数据

1999 DARPA IDS 数据集
CUCS 数据集
数据单元
- 全部数据包
- 数据包的前 100 字节
- 数据包的最后 100 字节
- 全部链接数据
- 链接的前 1000 字节

特征

每一个频率的方差和均值

PAYL

设计标准和运行目标
- 无需人工敢于
- 普遍适用于任意系统和服务
- 增量更新以适应不断变化或漂移的环境
- 低 FP
- 在高带宽的环境下，进行低延迟，高效的实时操作

给定长度的 n-Gram 载荷模型

数据流集簇
- 端口号
  - 代表不同的应用
    - 21，22，80 等等
- 数据包的长度范围
  - 代表载荷的类型
    - 较大的有效载荷包含多媒体或二进制数据
- 数据流的方向
  - 流入
  - 流出
度量： $n \text{-gram}$ $n -gram$ 的频率
- 给定数据包长度 $L$ ，频率 $=$ 出现的次数 $/ (L-n+1)$
- 使用 $n = 1$ ，即 256 个 ASCII 字符
$i$ ，观测到的长度 bin
$j$ ，端口号
$M_{ij}$ ，字节频率的均值和标准差

简化的 Mahalanobis 距离

简化
- 简单的假设：字节频率独立相关
  - 协方差矩阵变成对角线矩阵
- 用1范数代替2范数
  - 避免平方和平方根计算
- 附加平滑系数 = 0.001
  - 避免标准差为零，和无限的距离
  - 避免相同的频率
  - 反映抽样训练数据的可信度
    - 平滑数据较大，可信度较低
$x$ ，新观测样本的特征向量
$\overline{y}$ ，训练数据集的平均特征向量
$\overline{\sigma}$ ，标准差
$d(x, \overline{y}) = \sum_{i = 0}^{n - 1}{|x_i - \overline{y_i}| / ({\overline{\sigma} + \alpha})}$
直观的解释
- 把观测样本依长度分入 bin 后做正规化处理，并把结果相加
- 对于每一个维度（长度 bin $i$ $i$ ）
  - 计算样本和中心点的曼哈顿距离
  - 用平滑过的标准差做正规化处理
- 相加求和

增量学习

能够适应概念漂移
均值和方差使用流数据衡量方法
$\overline{x} = \overline{x} + {(x_{N + 1} - \overline{x})} / {(N + 1)}$
存储 $x_i^2$ 的平均值， 256个元素的数组

通过聚类缩小模型大小

细粒度模型问题
- 模型总体体积大
  - 数据包长度相近，分布也类似
- 有些长度的数据包训练样本不足
解决方案
- 合并相近模型
  - 曼哈顿距离
- 从相邻的 bin 借用数据
对于在训练数据中未观测到的包长度
- 使用最接近的长度范围
- 对异常长度发出警报

无监督学习

假设：攻击很少，且攻击的载荷与正常通信流量差异很大
消除训练数据噪声
- 将学到的模型应用于训练数据
- 删除异常训练样本
- 更新模型

Z串

特征分布符合 Zipf 定律
来自不同网站的异常载荷的Z串能够互相匹配
- 一个新的蠕虫出现了

局限性

唯独诅咒
无用的特征
对入侵者
无重点范围
容易被模拟攻击（混合攻击）攻破

参考资料

Anomalous payload-based network intrusion detection, Wang-Stolfo 2004
Advanced Polymorphic Worms: Evading IDS by Blending in with Normal Traffic
CS 259D Session 12

results matching ""

No results matching ""