PE 恶意软件机器学习数据集介绍
在恶意软件检测领域,公开的数据集对于推动研究和开发至关重要。本文将介绍几个主要的PE(Portable Executable)恶意软件机器学习数据集,包括EMBER、SoReL-20M、BODMAS和PE Malware Machine Learning Dataset,并对它们的基本信息、特征、数据量、模型性能等进行详细对比。
数据集基本信息对比
下表对比了EMBER、SoReL-20M、BODMAS和PE Malware Machine Learning Dataset四个数据集的基本信息:
| 序号 | 数据集名称 | 公开时间 | 恶意样本数量 | 良性样本数量 | 数据采集时间 | 数据特征类型 |
|---|---|---|---|---|---|---|
| 1 | EMBER1 | 2018年4月16日 | 400,000 | 400,000 | 2017年1月至2017年12月 | 特征向量 |
| 2 | SoReL-20M | 2020年12月14日 | 100,000,000 | 100,000,000 | 2017年1月1日至2019年4月10日 | 特征向量 |
| 3 | BODMAS | 2021年5月1日 | 57,293 | 77,142 | 2019 年 8 月 29 日到 2020 年 9 月 30 日 | 特征向量、二进制文件 |
| 4 | PE Malware Machine Learning Dataset | 2021年1月8日 | 114,737 | 86,812 | 2018年02月15日到2020年10月26日 | 二进制文件 |
EMBER 数据集
1. 数据集介绍
EMBER(Elastic Malware Benchmark for Empowering Researchers)是第一个大规模公开的恶意软件检测数据集,旨在为研究人员提供一个标准化的基准数据集。
- 官方资源:
2. 数据集构成
EMBER数据集有三个版本:
- EMBER 2017(Feature Version 1):2351个特征。
- EMBER 2017(Feature Version 2):2381个特征,增加了数据目录特征集合。
- EMBER 2018(Feature Version 2):2381个特征。
3. 数据量及数据时间范围
-
EMBER 2017:
- 训练集:900,000个样本(300,000个恶意样本,300,000个良性样本,300,000个未标记样本)。
- 测试集:200,000个样本(100,000个恶意样本,100,000个良性样本)。
- 时间范围:2017年1月至2017年12月。
-
EMBER 2018:
- 训练集:800,000个样本(300,000个恶意样本,300,000个良性样本,200,000个未标记样本)。
- 测试集:200,000个样本(100,000个恶意样本,100,000个良性样本)。
- 时间范围:2018年1月至2018年12月。下图为EMBER 2018数据集的分布情况。

4. 特征维度
- Feature Version 1:2351维特征,包括文件信息、头信息、导入/导出函数、节信息、字节直方图、字节熵直方图、字符串信息等。
- Feature Version 2:2381维特征,新增了数据目录特征集合。
5. 模型性能
- LightGBM:
- ROC AUC超过0.99911。
- 在0.1%的误报率下,检测率超过92.99%。
- 在1%的误报率下,检测率超过98.2%。
- 与MalConv相比,LightGBM在性能上略胜一筹。
SoReL-20M 数据集
1. 数据集介绍
SoReL-20M是由Sophos和ReversingLabs合作发布的大规模恶意软件数据集,包含1亿个样本。
- 官方资源:
2. 数据集结构
baselines:包含预训练的模型检查点和结果文件。binaries:包含约8TB的zlib压缩恶意软件二进制文件。lightGBM-features:包含用于LightGBM模型训练的特征文件。processed-data:包含预处理后的数据,如元数据和Ember特征。
3. 数据集特点
- 二进制文件:二进制文件经过处理,防止直接执行。
- 标签:使用40个杀毒软件供应商的检测结果打标签,恶意样本的标记阈值为5。
BODMAS 数据集
1. 数据集介绍
BODMAS数据集由伊利诺伊大学香槟分校的研究团队发布。
2. 数据集特点
- 数据采集时间:恶意样本从2019年8月29日到2020年9月30日,良性样本从2007年1月1日到2020年9月30日。
- 特征向量:2381维特征,未归一化。
- 二进制文件:经过处理,防止意外执行,但可通过代码恢复。提供了恶意样本的二进制文件。
PE Malware Machine Learning 数据集
1. 数据集介绍
该数据集由Practical Security Analytics LLC发布,包含来自多个来源的恶意软件样本。
2. 数据集特点
- 二进制文件:经过后缀处理,但可恢复。
- 标签:通过白名单和黑名单字段确定。
- 样本来源:包括VirusShare、MalShare和TheZoo。
免责声明:本文仅用于介绍和研究目的,数据集链接和资源仅供网络安全从业者和研究人员合法使用,且数据集需从原始数据分发人员处获得,本博客不做数据分发。在使用这些数据集时,请严格遵守相关法律法规和数据集的使用条款。确保在安全的环境中处理恶意软件样本,避免对您的系统或网络造成任何潜在风险。作者和发布者不对因不当使用这些数据集而导致的任何后果承担责任。另外,本部分内容由大语言模型指导和审校,存在不当之处还请指正。
Footnotes
-
EMBER 数据集中还包含300,000个未标记样本。另外EMBER数据集中的特征向量构造方法已成为一种标准,也被叫做EMBER特征。 ↩