比赛介绍

描述内容

通知:初赛二阶段截止提交时间延长至2018年9月26日 23:59:59

初赛二阶段的数据集只包含测试集数据,用来对参赛队最终初赛成绩进行评估,决定参赛队的初赛排名。

      phase2.zip为初赛二阶段数据集,包含赛项一的测试集(不含标注)和赛项二的测试集(不含标注)

各参赛队使用初赛一阶段设计并训练的算法对二阶段提供的测试集数据进行计算,得出结果,提交至比赛平台。

数据集来源于安卓系统上的APP。包含有:APP的可执行文件原始数据、AndroidManifest配置部分、沙箱行为序列、传播溯源数据、安全属性(是否恶意)等。参赛队设计算法并进行训练,得到判断一个APP样本是否恶意,若恶意,属于何种类别的能力;以及找到恶意APP背后的团伙分类能力。判断越准确,得分越高。

数据集内容说明如下:

1. safetype.csv 安全属性。此文件属于赛项一的标注文件,在训练集中给出标注。对于测试集,则是需要参赛队给出标注提交结果。

sha1:样本sha1哈希值,这是样本APP的唯一标识,是样本的身份代号。下文相同。

safe_type:安全结果,安全样本为0,恶意样本为1

family_id:分类id

2. dex.csv 可执行文件原始数据。

dex文件是Android上APP的可执行文件,结构如下:

1.png

训练集dex提供如下数据:

2.1. header段:

fileSize:            整个dex文件的大小

stringIdsSize:    DexStringId的个数

methodIdsSize:      DexMethodId的个数

classDefsSize:      DexClassDef的个数

2.2. String_ids段:

avg_size: string的平均长度

max_size: string的最大长度

min_size: string的最小长度

2.3. data段:

opcode_count: 指令的opcode操作码序列统计分布(仅统计操作码如move,move-wide,invoke-virtual等的次数分布) 将opcode操作码由二进制转化为十进制(0-255之间),然后统计每一个数字出现的次数.

3. AndroidManifest配置部分:参见dex.csv

AndroidManifest.xml是Android上APP的配置文件,提供如下字段:

permission_list: 在沙箱中运行时,申请的uses-permission权限(约120种)序列。

提供如下组件的个数:receiver(receiver_num),service(service_num),activity(activity_num),provider(provider_num),meta-data(data_num)

权限表对照请参看 uses-permission_map.csv

4. sandbox_behaviorlist.txt 沙箱行为序列:

行为序列是指将apk置于沙箱内通过脚本触发后得到的API调用序列。在Android系统埋设了约100个桩点,并可区分apk调用桩点时的前后台状态。即行为空间约200,序列长度约100-1000。提供的数据如下:

4.1. id映射表:样例参见如下,在frontend_or_backend列中,“前台”表示动作发生时,APP页面在前台可见。“后台”表示不可见。下表是一个不完整的示例。

behaviorid;frontend_or_backend;behavior

1;frontend;ams服务

2;frontend;打开activity

3;frontend;REORDER_TASKS/把任务移到最frontend

4;frontend;打开activity

5;frontend;横竖屏切换

6;frontend;结束activity

7;frontend;关闭当前页面存在的系统窗口

8;frontend;更新配置

9;frontend;卸载接收器

10;frontend;解绑service

101;backend;ams服务

102;backend;打开activity

103;backend;REORDER_TASKS/把任务移到最frontend

104;backend;打开activity

105;backend;横竖屏切换

106;backend;结束activity

107;backend;关闭当前页面存在的系统窗口

108;backend;更新配置

109;backend;卸载接收器

110;backend;解绑service

……

4.2. 行为序列(behavior_list):参见赛项一sandbox_behaviorlist.txt

id1,id4,id13,id22,id81 ...

      每个id对应id映射表中一个行为

5. 传播溯源数据

传播溯源数据是指Android的APP文件里面涉及到的邮箱地址,手机号,传播网址等数据。提供如下数据:

5.1. 病毒中的木马邮箱数据:参见赛项二trojan_email.csv

字段

描述

样例

sha1

病毒应用文件Sha1

0458e224956d449b9eccbf6fe0e07ee06b543298

contain_email

病毒应用中的木马邮箱(实际提供为HASH值)

abcdef@163.net

5.2. 病毒中的木马手机号码数据:参见赛项二trojan_phone.csv

字段

描述

样例

sha1

病毒应用文件Sha1

0458e224956d449b9eccbf6fe0e07ee06b543298

phone_number

病毒应用中的木马手机号码(实际提供为HASH值)

+86-12345678456

5.3. 病毒中的传播网址:参见赛项二trojan_web.csv

字段

描述

样例

sha1

病毒应用文件Sha1

0458e224956d449b9eccbf6fe0e07ee06b543298

url

病毒应用中的传播网址

http://t.cn/abcdef

5.4. 域名注册信息:参见赛项二fqdn_reginfo.csv

字段

描述

样例

domain

域名

t.cn

register_username

域名注册人

AI Lab, Co.

email_address

域名注册人邮箱

ailib@qqqqqq.com

phone_number

域名注册人手机

+86-12345678456

5.5. 病毒传播网址解析信息:参见赛项二fqdn_ip.csv

字段

描述

样例

site

站点

a.t.cn

Ip

站点解析IP

1.1.1.1

6. 黑产团伙信息:为参赛队提交的结果文件,即trace2.csv文件。

sha1:样本sha1

attacker_id:团伙id

样例如下:

aaa88516eff7c10b44570f84df649360cd32875c,1

b74dc0c33ed8c7c1647f07a6edb9e8bac651e58d,2

72a1eb1b309a3a706fcaf6e50bf14edce118ea3e,2

5c0e37553e8b951e3038a7a82788d536685ad6ed,3

 


参加比赛,你可以

组建团队

或者

加入团队
开始
预赛一阶段
预赛二阶段
决赛