引言
继《国家安全法》、《网络安全法》之后,国家相继颁发和实施了《数据安全法》、《关键信息基础设施保护条例》、《个人信息保护法》等多部相关法律法规。当前,各行各业面临更加隐蔽、更加智能、更具破坏性的安全威胁。公共通信和信息服务、能源、交通、电子政务等重要行业和领域,一旦遭到入侵,严重危害国家安全和国计民生。与此同时,随着数字化水平不断提升,信息系统的复杂度和规模持续扩大,威胁敞口增多,让反入侵系统面临全新挑战,比如海量原始日志、高噪音告警、孤岛式安全能力、高人力占比的安全运营及响应等。在当前安全环境复杂状况之下,我们需要构建一种可靠、灵活、智能、经得起实战能力的反入侵平台。
近日,蚂蚁安全自主研发的反入侵平台成功入选由上海经信委发起的 “2022 年度上海市网络安全产业创新攻关成果”,该平台曾助力蚂蚁在国家级红蓝攻防实战演练取得零失分的成绩。本文将分享蚂蚁反入侵平台的架构与实践,介绍如何通过技术打磨和创新演进,构建万亿级超大规模数据体量下的反入侵能力。本文将从三个方向逐步展开:万亿级入侵检测、风险研判及归因、安全事件快速处置。
本文大纲:
- 蚂蚁反入侵平台发展史
2 . 蚂蚁反入侵平台概述
3 . 万亿级入侵检测
4 . 风险研判及归因
5 . 安全事件快速处置
6 . 结语
- 蚂蚁反入侵平台发展史
2018 年初,蚂蚁安全在李俊奎博士的带领下,开始探索大数据实时计算在反入侵领域的应用,并于年底发布上线了以大数据实时计算为代表的入侵检测分析计算平台。
2019 年,入侵检测分析计算平台经过多次迭代和演进,逐步构建了提供海量数据的入侵分析检测能力。同年,韦韬博士加入蚂蚁集团,带来了安全平行切面 [1] 与融合对抗智能等全新技术理念,在复杂安全风险场景下,通过安全平行切面防线将安全能力系统化地融入技术基础设施与应用服务内部,同时保持安全响应能力与复杂业务逻辑的解耦,以形成安全攻防效能的跨越式提升。随之该平台也与蚂蚁移动互联网及金融数字普惠业务同步发展,通过安全平行切面体系引入了各种数据源,并结合大数据流式关联分析和图计算等能力,反入侵能力得以进一步增强。
2020 年,反入侵运营平台上线。基于 ATT&CK 攻击知识框架体系,对攻击行为、攻击阶段等维度提供统一刻画,围绕行为画像、威胁情报等多源异常联合风险研判分析定性,对入侵检测引擎进行了全新升级,并有效支撑了各种网络安全红蓝攻防演练。
2021 年,以安全平行切面为牵引,连接操作系统、服务端、应用终端等防线的安全 SOAR 平台上线,安全事件响应实现了百万级节点的高效处置。
2022 年,蚂蚁安全整合了入侵检测分析计算平台 、反入侵运营平台、安全 SOAR 三个子平台,形成了联合安全平行切面,融合威胁情报,集聚入侵检测、风险研判、安全响应于一体的反入侵统一解决方案型产品,并支持服务于蚂蚁集团及其旗下各子公司。
- 蚂蚁反入侵平台概述
蚂蚁的基础安全体系整体包括威胁对抗和安全治理两大工作域,分别从攻防对抗角度和加固治理角度划分主要安全工作。威胁对抗域包括了围绕系统攻击、网络渗透等一系列涉及攻防对抗的工作,更像是在前线直接与敌接战。蚂蚁反入侵平台支撑着蚂蚁集团所有网络安全威胁对抗的工作。
蚂蚁反入侵平台由入侵检测、风险研判、安全响应三个核心能力组成,联合了安全平行切面,标准化接入各安全平行切面实时上报的行为日志并能高效干预阻断攻击。有以下特点:
o 入侵检测:支持万亿级大规模原始数据的标准化接入和实时检测,具备威胁对抗灵活应变,实时输出可疑行为告警,确保及时发现各类攻击信号。
o 风险研判:支持基于融合对抗智能体系的高效研判,通过对告警多维融合画像、威胁情报、安全知识图谱,结合专家智能和机器智能进行风险研判,近实时输出高精度、可解释的攻击链路。
o 安全响应:支持百万级切面节点的高效快速联动,具备覆盖快速处置及止血、取证、调查、溯源等全流程的剧本化处置能力。有效提升安全响应效率,降低安全防护成本和门槛。
蚂蚁反入侵平台架构图,详见下图所示。 图 1:蚂蚁反入侵平台架构图
- 万亿级入侵检测
3.1 背景介绍
蚂蚁集团业务范围广,信息系统数量庞大,网络复杂,包括生产网、研发测试网、办公网、终端等 IT 资产数量高达百万级之多,产生的入侵威胁检测实时探针日志每秒千万条,每日高达万亿条。与此同时,还要满足威胁对抗的实时性要求、快速应变要求,以及金融级别的稳定性和可靠性。
3.2 挑战与应对
①万亿级超大规模数据的实时检测:
基于流式计算技术,我们研发了一套可支撑万亿级大规模数据实时计算的入侵检测引擎,底层适配了业界主流的大数据计算能力。设计了四个安全基础引擎,分别包括规则计算引擎、模型预测引擎、特征计算引擎、函数扩展引擎,这些基础引擎在大数据计算与资源调度使用过程中对 CPU、内存、网络 IO 等消耗上做了各种实战性的优化,能够承载大规模的原始日志分析计算吞吐。
②安全攻防强对抗的快速应变:
基于动态计算编排思路,我们设计实现了一套可编排的计算交互框架,可让安全工程师非常灵活的快速建立一个面向任意安全威胁面的入侵检测任务。在实时检测引擎的 UI 交互中上,设计了 6 个关键元素节点:输入节点、SQL 节点、规则节点、模型节点、特征节点、输出节点。极大的方便了安全人员进行入侵检测构思,以及灵活配置入侵检测的计算任务。在面对安全威胁的强对抗过程中并基于我们的引擎不断优化入侵检测逻辑,使之满足其威胁面超大原始日志量的入侵检测,并保障其检测实时性和高检出率的要求。
③金融级别的稳定性和可靠性:
由于任务结构复杂,量级大,流式计算的稳定性及计算延迟控制挑战巨大。我们设计了一整套高可用保障机制,包括对入侵检测任务进行全生命周期管理,以及对入侵检测任务进行各种运行时的异常监控,比如:原始日志量级波动、入侵检测可疑行为输出波动、入侵检测延迟波动、任务执行容器 Pod 网络 IO/磁盘水位/内存使用率/CPU 使用率、操作节点及函数执行的异常日志等进行监控。还针对监控上报的异常的情况,配置了各种各样的任务优化和自愈机制。保障入侵检测任务在超大数据规模的分布式计算下的准实时性,以及高强度对抗的灵活变更下的稳定性和可靠性。
④复杂安全环境的入侵检测水位量化:
为了更好的看清和看全网络安全的威胁全貌,我们引入了 MITRE ATT&CK 攻击框架 [2],采用攻击战术目标 [T]、攻击技术 [T]、攻击手法案例 [P] 三维建模思路设计了攻击视图,以及与之对应的基于威胁场景、技术覆盖、风险标签的对抗视图,来覆盖攻击视图中的 TTP 三维坐标。帮忙安全工程师,全面提升威胁检测的覆盖面,以及更全面的思考和研究安全攻防对抗。
基于以上技术挑战与应对,我们设计了入侵检测引擎,技术架构如下图所示。
图 2. 入侵检测引擎架构图
我们的实时入侵检测引擎横向覆盖了终端层、网络层、服务器主机层、应用层、办公设备层、研发测试网等各种威胁面的入侵检测,支撑蚂蚁每秒千万级以上、每日累计万亿级的实时入侵检测。我们也更进一步结合了安全平行切面,面向终端、网关、云端三个方向发力,打造端 - 管-云三维联动的立体化实时入侵检测。
- 风险研判及归因
4.1 背景介绍
在入侵检测环节,为了保障威胁的检出率,会产生大量的可疑行为告警,在蚂蚁的场景下,对万亿级的原始安全探针日志检测后,将产生每日亿级可疑告警。这些包含了大量的弱信号、高噪音的数据,虽拥有宝贵的安全分析价值,但是极大的增加了安全运营压力,导致风险研判无从下手,容易疲乏,同时面临着风险忽视的问题。另外,因为缺少许多关键的辅助信息,比如静态资产和动态资产的关键信息,需要不同的 IT 信息平台来提供,导致告警分析及定性耗时长。还因为各威胁面告警单一,缺少完整的风险行为链,导致安全运营风险研判分析不全面。
4.2 挑战与应对
①保障威胁检出率的前提下,如何提升精度:
目标是从亿级告警快速提炼出百级告警。我们结合威胁情报、关键资产画像、高危攻击手法等数据,对告警划分为 P0、P1、P2、P3 四个等级。P0/P1 代表严重/高危信号的告警,P2/P3 代表中/低危信号的告警。快速实现了将每日亿级全量告警,降至每日百级别的 P0/P1 告警,用于安全运营快速推进转换为安全事件,以及后续处置止血。同时针对全量告警,建立全文时序索引,为后续的威胁狩猎与多维强弱信号告警关联的风险研判分析提供给数据支撑。
②从告警中还原出可解释的完整攻击链路:
目标是将亿级告警无损压缩至千级以内风险。我们设计了一套基于图的多维风险分析引擎,用于风险研判提纯和风险归因。将可疑行为告警按照攻击方和受害方两个维度进行方向建模,细化来源实体和目标实体,以及具体的可疑行为进行风险打标,抽象出点边关系,实时建立风险全图。借助在线图计算,结合自研的风险多维分析引擎,进行迭代关联、剪枝、风险模式匹配计算,近实输出可疑风险子图,用于风险运营研判。并针对不断迭代出来的风险子图进行相似度计算,在时空推进的过程中,将相近可连通的新老风险子图进行历史合并。同时对于风险子图进行关键信息提取,并借助自然语言处理,转化为一看就懂的风险摘要描述信息。
③专家与机器融合的智能化风险研判:
目标是将专家研判与机器学习融合,取长补短,提升风险研判的泛化能力。我们内建了一套关联威胁情报、关键资产画像、高危攻击手法、动态资产变更关系、可疑告警等融合的资产及风险知识全图,用于风险研判分析计算的联动,并基于此进行行为特征提取、专家风险打标,以及基于某些具体方向的机器学习与预测。最终整体研判的过程中,会将专家风险标、AI 推荐的风险标进行融合,作为最终判定依据,综合决策输出研判结果。
基于以上挑战及应对,设计了反入侵平台的风险研判归因,整体示意图如下所示。
图 3. 风险研判归因示意图
我们将各威胁面告警,进行置信度高危分级,并将多主体多维风险行为进行组合,关联正确时空下周边资产信息,并进行风险研判迭代提纯,最后输出可解释的完整攻击链路图。我在实现从亿别告警向千级风险进行无损压缩时,不仅保障了入侵检测的高覆盖率,同时也提升了高精度真阳性,并极大的简化了运营复杂度,让安全运营变得更从容。并更进一步,结合 AI 算法,通过多模式组合、深度学习等技术,将专家模式沉淀为主的研判,逐步转向为专家风险模式 +AI 智能化融合的风险研判。
- 安全事件快速处置
5.1 背景介绍
安全威胁对抗不仅要具备实时的入侵检测、全面的风险研判,还要具备安全事件的快速处置,以避免风险扩散。但因为事件处置对象分布广泛,真正应急响应时,需要到人工访问或者通知多个平台及团队来协同完成,导致执行效率和安全可靠性是很难保证。需要将日常复杂、繁琐、重复、分散的安全响应工作进行了剧本化编排,并通过一套安全可靠的保障体系来自动执行,让安全专家人力释放,从而有更多的精力去专注安全攻防研究以及 APT 高级持续威胁的对抗。如何将安全专家经验编写成安全操作剧本,以人机协同的方式,安全可靠的完成事件响应,是反入侵平台建设的另一个重点。
5.2 挑战与应对
①灵活的安全剧本编排能力:
为了提升安全运营效率,降低运营成本和门槛,我们借鉴了工作流引擎建设思路,设计了拖来拽 UI 交互方式,通过工作流原子节点、人工协同节点、服务扩展节点等,提供灵活的安全剧本编排 UI,开放给安全专家。方便将各种日常安全响应工作,通过平台进行剧本编排,形成各种各样的用于安全响应的可执行剧本。
②简单可扩展的安全切面集成能力:
为了能够联动百万级的安全切面节点,立体、全面、准确的处置安全事件。我们通过动态代码生成机制,实现了包括端切面、服务端切面、应用切面等在内的扩展集成能力,全面集成所有安全切面及防线系统。零代码即可完成配置各安全切面及防线系统提供的原子安全响应能力,并生成安全响应动作可用列表,用于后续的剧本灵活编排,以及剧本执行所使用。
③稳定可靠的剧本执行能力:
为此,我们针对安全剧本生命周期,以及安全响应可靠性保障进行特殊设计。针对安全剧本生命周期,基于版本控制,提供从草稿、调试、试运行、正式运行、回滚等进行了全生命周管理。针对各种变更和各种执行进行了日志记录和审计。并对于各项剧本执行及响应动作设计了效果监控,并设计和提供了快速回滚,熔断限流,以及灰度分批执行等能力。并在剧本执行操作机制上,严格限制并遵循灰度比例和有效观察后的分批执行;在支持快速回滚方面,严格设计了的流程逆向执行操作机制,用于发生响应错误时的快速补救。
基于以上技术挑战与应对组合,所建设了安全响应引擎,技术架构详见下图所示。
图 4. 安全响应引擎架构设计图
反入侵平台的安全响应编排与自动化能力,让蚂蚁安全迈入了自动化响应的时代。不仅限于传统的安全事件处置止血,同时也能够支持包括取证、调查以及溯源分析等安全操作经验的剧本化沉淀,以及剧本自动化调度执行。
特别说明:在安全威胁对抗实战过程中,特别针对处置止血中的高危操作,需要加入严格的审核机制、效果监控机制、熔断机制、快速回滚机制,对于批量操作执行的,还需加入灰度分批机制,以确保在大规模生产环境中不因为误操作引发大规模服务中断事故,才能发挥最大的安全价值。
- 结语
经过多年的攻防演练和黑灰产实战经验,我们在反入侵平台架构与实践上积累了扎实的经验,支撑了每日万亿级数据量的入侵检测分析,实现了高精度低噪音的多维风险链路刻画,以及安全事件处置在多个环节下的自动化。但安全威胁对抗不是一次性博弈,持续不断的、人来人往的对碰,永不消亡。攻击者在各种利益驱使之下,将会长期存在,甚至挑战愈发严峻。作为防守方,我们任重道远,也希望与安全同行们携手并进,持续更新与强化对敌的战备武器。
作者:
蚂蚁集团,张华 (花名: 恩华),王珉然 (花名: 悲阑)
引用参考:
[1] 蚂蚁科技集团股份有限公司,信息产业信息安全测评中心,2021 年 12 月,《安全平行切面白皮书》http://www.itstec.org.cn/aspect_oriented_security_white_paper.pdf
[2] MITRE 的 ATT&CK 攻击矩阵知识库,https://attack.mitre.org/matrices/enterprise