ATT&CK随笔系列之三：比武招亲

作者：余凯@瀚思科技

“偷天陷阱”是ATT&CK随笔系列第二篇，如果上天能给我机会让读者记住一个关键词，我选择“灵魂三问”，如果非要为她做点什么，希望是“基于ATT&CK衡量和改进”。

ATT&CK创造性的统一了黑客行为描述并基于社区持续构建扩展知识库，为防守方提供了具体明确的行动指导，安全运营不仅知己而且知彼，从而有机会衡量安全体系应对攻击的纵深防御、检测响应能力，并在实战对抗中持续改进提升，有望根本上解决长期困扰组织安全管理和运营的灵魂难题。

本文将延续上一篇展开探讨“衡量和改进”，开篇“比武招亲”的故事先看小说里古人遇到相似场景的挑战和思路，随后讲述现实中安全产品评测体系的渊源和发展，最后介绍MITRE是如何基于ATT&CK巧妙给出解决方案以供组织安全运营参考实践。

——瀚思科技副总裁余凯

从比武招亲说起，看“雀屏中选”的先进性

比武招亲是古代以比武为手段招纳女婿的形式，一般是招亲女子直接和打擂者切磋，清代王韬著剑侠小说《遁窟谰言》中描写西安女子仇慕娘面对和尚来挑战毫不留情打到对方骨折，但见到“体貌瑰玮，丰神清拔”的卫文庄则收剑认输道“君胜我矣”；明代纪振伦《杨家将通俗演义》也描述穆桂英比武招亲被杨宗保打败芳心暗许托付终身。问题是古代女子能打能把控局面的太少，而且若仅以武功高低作为唯一衡量标准往往无法像仇慕娘和穆桂英一样走运，例如金庸《射雕英雄传》穆念慈比武招亲遇到纨绔少爷杨康，现场赢了比赛却不认招亲。

《旧唐书》记载“雀屏中选”提到了一个新的模式，北周大将窦毅觉得女儿“才貌如此，不可妄以许人，当为求贤夫”，于是找一丹青妙手，在家中屏风上画孔雀，并邀请各路好手来家中，每人发两支箭请大家射孔雀，最后选择了射中雀目的李渊（即后来的唐朝开国皇帝）。这个比武招亲的模式创新在武功箭术只是一个切入点，对窦毅和女儿而言，选婿这个复杂的问题有多维度的考量而且每家不同，比武射箭是让年轻人在同一个平台上充分展示自己，最后乘龙快婿不是由简单规则推定，而是女方参考结果基于初心判定。当然“雀屏中选”若要成为“比武招亲”的最佳实践推广，还有一个难点：比武招亲对“武”自然有期待，而“武力”评估这事很专业，身体素质本身就有上肢，核心区，腿部的耐力、爆发力；功夫也分刀剑骑射、轻功内力、散打拳击；而上升到战斗力，还需考量胆识、战术、谋略。若要系统性评价需要有新的民间智慧。旨在衡量安全产品能力的安全评测也有类似的挑战，需求和变化演进。

对标排名(Benchmark)时代的冲突与困扰

安全产品的评测，比选婿问题更加复杂。以杀毒为代表的个人安全软件自诞生起不久就像其他个人用产品（例如汽车、相机、或绘图软件等）一样被行业专业机构评价、评测和对标排名(Benchmark)。起初消费类杂志IT主编自己试用和测试，随着病毒攻击手法日益多元和专业，杂志主编开始参考多家专业机构的安全评测，例如著名的PC Magazine，此前我在趋势和PC-cillin团队每年参加其评测有如年度大考极其重视，而杂志主编Neil J. Rubenking不仅自己有个小实验室体验评测，也参考包括AV-Test、AV-Comparative在内的多家第三方专业机构报告，于是就有了下图复杂的映射关系，图中间AV-comparative；AVTEST；DENNIS Labs；Virus Bulletin是全球主流的四家评测机构，而下图则是参考其评分的各主流媒体。

图二、媒体和评测机构的关系

评测排名对个人安全产品销售几乎是决定性的影响，因而安全厂商对安全评测的质疑从未绝于耳:

2008年我所在核心技术部老板Raimund Genes宣布Trend Micro将抵制VB100评测，原因是其持续用700新增在野病毒检测率来评价杀毒软件，漏掉一个即不通过，而实际每月新增病毒总量在数十万，这样导致评测结果过于随机。【1】
2013年Symantec官方严厉批评 AV-comparative为PC Magazine所做的评测结果极具误导性，测试方法的约束严重限制了其安全能力发挥。【2】

随着NSS Labs和ICSA Labs等后起之秀将安全评测向企业级产品扩展，测试的复杂度和方法争议性更加突出；

2014年FireEye批评NSSLabs在其拒绝参加失陷检测系统BDS评测后仍然对其产品做测试，NSS Labs随后做了精彩的回复并以“我能感受到你的爱”结尾，导致FireEye股价由$65应声跌落至$40。【3】
2018年，NSS Labs对Symantec、CrowdStrike、ESET、反恶意软件测试标准组织(AMTSO)提起了反垄断诉讼，控告其推出“未经同意不可测试”条款，防止其产品被用于其高级终端防护AEP测试。【4】

上述冲突和质疑根源在于安全评测原生的各种复杂挑战：

是否与时俱进反映威胁和攻击现实我此前服务趋势科技核心技术部门，长期参与安全评测机构的对标测试，我与上面提到所有评测机构都经历过沟通方法、参与考试、讨论结果、优化引擎的循环，但投入重心主要在AV-Test、AV-Comparative和NSS Labs上。

AV-Test强在有能力持续收集大量高质量的在野病毒样本用以做检测覆盖率评估，其病毒样本质量优于Virus Total，评价聚焦随笔系列第一篇提到的痛苦金字塔第一层（最底层）哈希病毒码。
AV-Comparative强在模拟用户通过浏览器上网遇到的网页木马攻击(drive-by download)，与AV-Test同是评价终端安全产品，但相对体现了南北向Web攻击特点，评价从痛苦金字塔第一扩展到第二、三层。
如ATT&CK系列随笔开篇第一段提及，NSS Labs是行业第一家关注和评测安全产品对抗失陷后(Post-Breach)攻击能力的厂商，其在2012年或更早就开启了这个艰难模式的探索。2012年底NSS Labs引入面向内网东西向对抗的BDS (失陷检测系统，Breach Detection System)评测以及2016年引入面向终端东西向对抗的AEP (高级终端防护，Advanced Endpoint Protection)评测都是颇有行业影响力的颠覆性创新。

引入BDS和AEP评测旨在进一步模拟企业网络面临的高级威胁攻击，不仅强化了南北向攻击的手法，也引入了东西向渗透手段，以此进一步评估安全设备对于包括邮件、SMB在内的更多种东西向协议的分析能力，安全评价进一步扩展到痛苦金字塔第四、五层。迄今为止，传统评测厂商尚没有能穿透痛苦金字塔提供第六层TTP的能力评估，而这又恰是当代安全攻防的重点，即聚焦黑客行为的检测与响应。

如何平衡自身利益，客户利益和厂商利益

上述评测机构都是商业公司，盈利模式无非几种：卖用过的样本、卖模拟考、卖报告给客户参考、卖报告给厂商分发、提供厂商付费并主导的定制测试。看上去公正公开，而事实上只要商业化则做对标排名就必然充满槽点；类似高考的设计者，始终在应试教育和素质教育的矛盾下饱受批评，评测机构总是难以平衡自身利益、客户利益和厂商利益。举例而言，上述NSS Labs与Symantec等几家厂商冲突的本质是，评测机构是否有权利在未经厂商同意前提下做评测。NSS Labs坚持的是客户利益优先原则，你能卖我就能买来测。而Symantec等质疑的是NSS Labs测试方法不透明公开，以思想领袖(thought leader)姿态强势逼迫厂商以反复模拟考提高能力，进而失去安全对抗话语权。

安全产品对标排名是否能满足不同客户需求

安全评测往往基于多维度和多因子加权打分、排名，问题是这些被纳入考量的维度和因子在不同的环境下会有不同的影响，而不同的客户也会有迥异的需求。例如网络设备追求检测率往往引入更多的计算，从而拉低吞吐，而高业务要求的组织可能会放弃检测率保吞吐量，安全评测很难给出合适的分数加权。再如有强安全团队或采购了托管安全的服务组织可能希望有更全面的安全数据做分析和狩猎，而情况相反的组织则期望产品能精准的自动化告警。这些比喻在比武招亲的场景下也很容易理解，开篇故事提到的窦家和同在北周的某商贾之家所中意的夫婿一定截然不同，若有个媒人说可以承担两家的招亲评测，给出的排名八成要被嗤之以鼻无法理喻。更大的挑战是，客户的需求不仅在于辨别好坏和适用，还有对于安全投资的价值量化（参考上一篇随笔之“灵魂三问”）。例如，一个提供所谓97%检测率的沙箱产品，加上据说98%检测率的流量分析产品，配合号称99%检测率的主机安全产品，对既有纵深防御体系的加成和增益有多少，各自对实战攻防的贡献如何？长期以来是一本糊涂账，难以回答。

MITRE的咨询式展示评估：安全领域的雀屏中选

2017年MITRE接受美国政府的咨询服务希望评测行业内的EDR产品，MITRE设计了一套评测方法并第一个应用于Endgame【5】，随后是Crowdstrike【6】，到2018年初正式宣布发起第一轮公开的EDR产品评测邀约，并于当年十一月完成。如图三，MITRE基于ATT&CK为评测定义了一个新的名字：入侵者模拟(Adversary Emulation)。【7】

在了解入侵者模拟前，我们对脆弱性扫描、渗透测试和红队先有基本共识，简言之：

脆弱性扫描是针对资产已知漏洞、弱密码等脆弱点做自动化扫描。
渗透测试是基于工具或人工全面分析资产和业务流程中包括未知漏洞、配置问题在内的安全缺陷。
红队是在不影响营运的前提下，白帽子黑客对组织进行实战化入侵和攻击，获得指定核心资源的控制权。

入侵者模拟(Adversary Emulation)是MITRE ATT&CK评测的核心观念和实施基础，其本质是ATT&CK + 红队，即红队模拟ATT&CK 描述的入侵者攻击行为。换言之，选择入侵者是起点。MITRE ATT&CK 2018年第一轮评测是基于APT3模拟，2019年第二轮是基于APT29模拟。

图四、MITRE评测价值

MITRE ATT&CK入侵者模拟评测相比前文提及的传统对标排名(Benchmark)方式有很多创新和改变，平衡了三方的利益（如图四），实践了“雀屏中选”的理念并有了更完美的方案：

穿透痛苦金字塔进化至顶层，基于高维黑客行为（TTP）进行安全评测。
中立的非盈利机构主导，与厂商成为伙伴共建场景和设计评测。目标是推广ATT&CK，收集更多的检测方法，同时让厂商了解自身的能力、局限并持续提升。
不比较、不评分、不排名、不定级。实质是向所有人公开、透明的展示ATT&CK应用场景，并建议用户参照学习进而将对抗入侵者攻击模拟的最佳实践融入安全运营做可衡量改进。
每轮评测结束，MITRE会将评测攻击脚本基于自研工具CALDERA做简化转换以供有兴趣的组织在自己的环境自动化复现，并据此在本组织环境评价选择最合适的安全产品和运营流程。【8】
为安全评价提供多维度多因子和相关原始数据，包括检测告警、丰富化信息、遥测信息、关联分析信息、检测时间等，同时建议客户基于自身组织环境考量误报噪音、吞吐性能、部署方式、单位拥有成本、安全运营系统集成、分析能力、用户交互、默认安全策略等诸多因素。

相比传统商业评测机构低维封闭的“对标排名”(Benchmark)，MITRE作为中立非盈利组织引入了上述咨询式展示评估(Evaluation)，先进性核心体现在高维透明的方法论、开放与时俱进的知识库和客户可选择可行动的相关性，自2018年开始推广后获得了巨大成功，国际一线安全厂商悉数参与，各种赞美，并不遗余力争相贡献。去年我尚在趋势科技时，MITRE ATT&CK评测已经逐步成为公司资源最优先投入的头等大考。上月ATT&CK随笔我提及当前“云安全”TTP尚在讨论，月底Microsoft主力贡献的ATT&CK for Cloud即在ATT&CKcon 2.0上正式发布！

ATT&CK评测也推动了入侵者攻击模拟和相应安全成熟度衡量评测在各组织安全运营落地，近一、两年国内不少拥有强安全团队的头部优秀公司也开始内部创建红、蓝、紫队并基于ATT&CK做实战攻防演练、安全体系建设和安全运营改进。

MITRE针对拥有不同资源和需求的客户有清晰而具体的实践推荐：【9】

小团队基于ATT&CK选择高优先级的TTP独立测试，以驱动蓝队验证或优化数据源，并将覆盖率作为目标持续改进。
中型团队基于现有的黑客工具（例如Cobalt Strike，Empire）模拟既定入侵者的历史行为，推动检测和相应改进。
专业攻防团队可以从威胁情报提供商采购基于ATT&CK TTP的高级威胁情报获得既定入侵者的最新行为，直接设计入侵者攻击模拟脚本，进行红蓝对抗，持续改进纵深防御和安全运营能力。
用户也可以采购第三方安全厂商提供的入侵者模拟产品和服务，结合原生支持ATT&CK知识库的大数据安全平台实现上述目标（如下图五）