国内厂商 (转载)爱奇艺内部 SOAR 探索与实践
01 引言
SOAR 全称 Security Orchestration, Automation and Response,即安全编排自动化与响应,最早由 Gartner 在 2015 年提出。
安全团队注重威胁检测,往往购买了各种安全设备,同时自研安全产品,试图通过增加检测功能,追求更小的 MTTD(平均威胁检测时间),以及更大的威胁检出率。但面对外部日新月异的攻击手法,频频爆出的高危漏洞,不断增加的安全服务,企业安全运营面临巨大的压力,一方面出现安全人力不足,另一方面,对安全运营的专业能力要求过高。这个时候,急需一个系统来提升安全运营的标准化和自动化水平。
SOAR 提出了通过事件智能分析、事件编排、安全工具整合的方式,加快事件的快速预警和响应,从 “人到安全工具” 交互转变为 “机器到安全工具” 交互,应急响应转换为持续自动化响应,从而降低人工成本、降低 MTTR、提高安全运营生产力。近来 SOAR 产品备受关注,目前国内比较知名的厂商有雾帜智能,绿盟,盛华安,360 等,阿里云 - 云安全中心也上线了 SOAR 相关功能,如自动化溯源等。国外有 Rapid7/Splunk 也很早在 SOAR 领域开始了布局。
SOAR 作为安全编排与自动化,情报和事件响应平台融合的新兴安全解决方案,可以帮助企业在有限的人力下,处置更多的威胁,降低 MTTR(平均威胁处置时间)。爱奇艺内部引入 SOAR 之后,通过开发安全组件拉通各个安全服务,一方面安全剧本自动化执行降低了人工运营的压力,另一方面,MTTR(平均威胁处置时间) 也降低 75% 左右。
笔者总结了爱奇艺内部 SOAR 实践的一些经验,欢迎各位读者一起探讨交流。
02 SOAR 架构
下图是爱奇艺 SOAR 系统的整体架构,其中,核心的组件有:工作流引擎、图形编排组件、安全组件和剧本、IM 机器人和小程序。
调度引擎
目前市面上开源的工作流引擎不少,如 Flowable,Oozie 等。经过综合评估,我们选用 StackStorm 作为底层的编排调度引擎。业内如 Netflix 公司也使用了 StackStorm 作为监控自动化处置的底层引擎 [1]
StackStorm 采用模块化的架构,由多个松耦合的能水平扩展的服务组成,这些服务之间通过消息总线 (message bug) 进行通信,提供 Web UI,CLI 以及完整的 REST API。
StackStorm 的优势:
(1)工作流引擎可使用 yaml 编排,方便运营人员编写,及二次集成开发;
(2)支持 webhook 触发器及 Sensor,支持 python,方便安全服务集成;
(3)支持条件语条,fork/join 等,满足安全工作流基本需求;
StackStorm 工作流程:
Sensor 感应并触发事件;
(1)Rules Engine 对事件进行规则匹配,如果匹配,产生任务;
(2)Worker 执行任务,一般是调用到外部系统;
(3)StackStorm 记录审计任务执行的细节;
(4)任务执行结果返回给 Rules Engine 进行进一步处理。
图形编排
Stackstorm 附带的图形编排引擎需要单独收费,不太适合二次开发, 我们集成了 NSA 开源的 Walkoff 系统的前端,作为图形编排界面。
Walkoff 优势:有良好的拖放工作流编辑器
安全剧本/安全组件
安全组件对应 Stackstorm 的 action,使用 python 对现有安全服务的接口进行包装后集成。 安全剧本对应 Stackstorm 的 workflow,并尽可能地复用现有的安全组件,提高开发效率。目前我们的组件和剧本对接了 gitlab,方便版本存储及回滚,实现标准的 SOP。
03 落地场景
对于 SOAR,我们主要在两大安全场景落地使用。一种是高频场景,主要是日常运维,安全等级一般较低,但重复程度较高;另一种是低频场景,主要是高危安全事件响应,紧急程度较高,需要快速响应。
高频场景
场景示例: 漏洞单自动验证,由扫描器发现的漏洞,业务处理后标记"已修复"的,自动完成验证,关闭或重新打开工单
安全价值: 降低重复劳动,节省人力成本
评估指标: 节省人力时间 (人/天)
统计指标如下图所示
低频场景
场景示例: 服务入侵自动溯源调查;高危漏洞通报 (如 Struts,Fastjson) 自动关联威胁情报;主机 jar 包/代码 jar 包进行通报整改响应
安全价值: 实现无人值守,快速、标准化、自动化应急响应,减少安全损失
评价指标: 流程处置时间 MTTR(平均威胁响应时间)
以高危 jar 包漏洞通报为例,通常这类漏洞危害较大,且在短时间内推动所有业务完全修复较为困难。我们通过 SOAR 及相关资产清点,优先处置对外及重点业务的高危 jar 包,保证企业相关业务安全。
04 ROADMAP
当前进展
实现了安全组件、安全剧本的代码编排以及图形化编排, 实现标准化的事件调查及响应流程,并有效缩短了 MTTR。
运行效果如图 (部分内部敏感组件已隐藏)
针对移动端开发了对应小程序及群聊机器人,方便安全人员在移动端可以通过公司内部聊天软件实现 ChatOPS 及快速安全应急响应。群聊机器人,方便安全人员进行 ChatOps。
完成移动端小程序开发,方便安全人员远程处置安全事件
评价指标包含以下三类
(1)编排能力指标: 实现了 35 个安全组件,11 个安全剧本,17 个安全服务联动;
(2)自动化能力指标: 评估每个安全剧本执行次数及人工触发执行次数;
(3)能效指标: 目前包含自动化确认及协助调查节省的时间。
部分运营指标如下图所示
未来目标
短期目标:
支持更多 SOAR 组件,连接更多服务,保证组件复用率
形成案件库及知识库,以便支持后续的智能分析预警,沉淀安全人员的处置经验
更准确丰富度量指标,数据驱动决策
长期愿景:
通过安全编排自动化,提高事件响应和安全运营效率,并从根本上遏制和消除安全威胁
05 参考
Introducing Winston — Event driven Diagnostic and Remediation Platform
傅奎: 争分夺秒——基于 SOAR 的应急响应加速解决方案
安全运营持续优化之路—— 基于 ATT&CK+SOAR 的运营实践
CyberSky-SOAR 安全编排自动化与响应系统
https://github.com/nsacyber/WALKOFF
Workflow Processing Engine Overview 2018: Airflow vs Azkaban vs Conductor vs Oozie vs Amazon Step Functions
Introducing Winston — Event driven Diagnostic and Remediation Platform
自动化响应技术如何提升事件响应效率 SOAR,为 SOC 插上一对隐形翅膀