缓解警报疲劳的五种方法
过去十年中,网络安全工具在检测、预防和响应高级安全威胁方面的能力取得了长足的进步,但与此同时也带来了新的挑战:避免威胁检测进步导致的人员崩溃。
2020年进行的一项研究调查了427名安全专业人员(所任职的企业员工规模超过1000人)的警报数量。在调查中,70%的人表示他们收到的警报在过去五年中增加了一倍以上,93%的受访者声称他们无法在同一天处理所有警报。这最终不可避免地导致了:警报疲劳。
什么是警报疲劳?
从事网络安全工作的人可能熟悉该术语,因为这是过去十年中困扰很多许多企业的一个难题。顾名思义,警报疲劳就是安全团队收到了过量的安全警报导致对警报的敏感度和响应能力下降。
正如前文的统计数据所表明的那样,安全团队负责监控企业技术基础设施的各个方面,每天都会收到大量警报。这些警报可能来自设备监控、电子邮件过滤、互联网安全、网络防火墙等。随着新威胁的出现,这个警报源头的数量还在继续增长。
警报疲劳的危害
尽管多年来全球企业的安全计划已经日趋成熟,但先进的检测能力同时也导致每日产生的警报数量暴增了一至三倍。在此之前,企业还能使用基于签名的检测工具以及基本的电子邮件和互联网过滤功能来阻止垃圾邮件和恶意网站。
2004年,全球网络安全市场规模仅为35亿美元。到2021年,这一数字激增至2624亿美元,这表明组织为保护其基础设施而做出的安全投资正在飞速增长。这种投资增长推动整个网络安全技术堆栈的检测水平提高,从而导致更多警报。
警报不是坏事,能通知我们潜在的安全问题,敦促安全人员做出响应,阻止网络威胁。然而,过多警报也可能对企业的安全计划有害。
无法控制的警报数量使团队陷入“狼来了”的场景,分析师收到的大量警报都是低或中等严重性,导致他们对警报变得更加宽容。此外,一个安全团队每天可收到数百条通知,其中许多可能是不可操作的或误报,导致他们在真正严重的警报发生时难以及时做出正确的响应。
这不仅意味着团队会错过关键警报,而且这种心态下的SOC(安全运营中心)的响应时间也会变慢。警报疲劳会降低平均响应时间,这是公司用来衡量安全计划成功与否的主要指标之一。这种能力下降会对安全计划的有效性产生负面影响。
最后,警觉性疲劳对员工有不利的心理影响。安全人员往往不分昼夜地收到警报。尽管一些安全人员愿意加班应对潜在事件,但警报成熟度较差的企业可能会在夜间处理频繁的误报。这意味着分析师可能会在非上班时间花费数小时来处理常规工作或系统更新。当这样的情况经常发生时,会损伤员工的士气,最终导致离职率增加。
缓解警报疲劳的五种方法
与大多数此类现象一样,警报疲劳已成为安全厂商用来吸引潜在客户的最新营销术语。然而,现实是没有供应商可以解决这个问题。一些安全工具当然可以提供帮助,但企业自身必须投入大量精力来优化其安全工作流程,减少团队每天收到的警报。以下五种方法可以有效缓解警报疲劳:
- 确保所有警报都是可操作的。
- 正确设置警报优先级。
- 合理设置阈值。
- 自动化任何可以自动化的任务。
- 不断审查和改进现有警报。
一、可操作的警报
减少警报疲劳的第一步是确保所有警报都是可操作的。没有什么比发现您的SOC人员花费大量时间来关闭不可操作的警报更糟糕的了。尽管这似乎是一个小问题,但分析师可能需要30分钟以上的时间来审查和调查警报,然后才能确定是否需要采取措施来解决它。有时,他们甚至可能需要联系其他团队成员或IT人员,这会导致额外的时间浪费。
这个问题有一个简单的解决方案:在没有开发相应的程序并对员工进行培训之前,不要将任何警报投入生产环境。很多时候,来自新功能或工具的警报会未经测试和流程开发就被启用。部署新功能的工程师和管理员必须确定警报是否有价值和必要,然后与团队的各个成员合作制定适当的响应程序。
二、警报优先级矩阵
优先级矩阵(也称为事件优先级矩阵或事件评分系统)可显著减少优先级警报(严重和高危),减少工作时间和非工作时间的警报。因此,尽管开发优先级矩阵需要时间并且必须进行定期审查,但绝对值得投入。
设计优先级矩阵的方法有,但通常都是根据所涉及的系统和用户(的级别和规模)来确定安全事件的严重性和关键程度。例如,如果SOC在5分钟内收到超过20个网络钓鱼警报,则其优先级显然要高于针对单个用户的网络钓鱼警报。
要制定优先级矩阵,安全团队必须首先确定警报的严重程度,通常从“低”到“严重/紧急”。“低”是影响最小的警报,通常是信息警报,而“严重”对应于重大事件。接下来需要确定中间部分的“关键”或“高”优先级的警报类型,并围绕这些类型定义阈值。同样,单个警报可能被视为中等严重性,但如果它在不到五分钟的时间内多次出现,则可能需要升级到高或严重。
同样,必须定义中等和低严重性警报,并为何时需要升高优先级制定明确的标准。很少有场景需要将低或中等严重性警报升级为高或严重警报,要求联系额外的安全和IT人员并让其参与响应活动。
三、使用阈值
如前所述,单次事件可能被视为低危或中危,但如果该事件连续发生或在指定时间范围内多次发生,团队可能会决定配置让其触发警报。使用阈值检测多次出现的可疑行为有助于显着减少SIEM(安全信息和事件管理)生成的低优先级警报和误报的数量。
通常,企业不愿设置阈值是因为害怕错过重要的检测。如果团队认同单次或两次事件的发生是良性的,随后合作定义了需要介入调查的发生次数,他们可以据此实施阈值并根据需要进行调整。这种做法使团队对警报的必要性达成共识的同时,能够设置合适的检测/预防阈值,提高警报的价值。
四、自动化,自动化,自动化
自动化是网络安全行业的一个流行词,也是减少警报疲劳的主要方法之一。安全程序可以各种方式实现自动化。对于初级用户,它可以自动关闭低优先级警报。通常,安全团队出于审计目的需要某些警报,因此数据可用于临时或计划的审查,但不想查看每个单独的警报。在这些情况下,自动关闭警报是有意义的,可以为SOC团队成员节省一点时间。
当响应活动属于重复工作时,自动化显然是必要的。一个典型的实现是当系统检测到点击钓鱼URL时自动重置密码。当涉及网络钓鱼或恶意软件警报时,最好谨慎行事,做“已遭入侵”最坏的假设。
大多数企业在检测到网络钓鱼尝试时的第一步响应是重置用户密码,即使用户声称没有点击任何内容。对于拥有数千名员工的大型企业,此流程可能需要数小时时间。实施自动化重置密码使安全人员能够专注于更复杂的事件响应活动,并大大减少没什么技术含量的重复工作。
五、持续审查和改进
管理安全警报是一个持续的过程,需要经常审查以确保警报的可操作性高于一切。安全团队应不断审查警报,提出以下问题:
- 该警报有价值吗?
- 这是误报吗?如果是,我们如何提高警报的准确性?
- 这个警报是多余的吗?
处理良性警报和误报最简单的方法是关闭它们。安全人员应该不断质疑那些看上去是警报实际上是信息的“警报”的价值,探究为什么会收到如此多的误报,等等。提出这些问题并要求其他团队成员和领导层共同参与回答这些问题,就相关警报的必要性或调整方式开展更积极,更有价值的讨论。
总结:SOC分析师和跨职能协作是关键
前文提及的许多方法相互关联,需要整个安全团队的协作。尽管敲定优先级的是管理层,配置警报的是工程师,但SOC分析师才是每天跟SIEM打交道的人,分析师应该与企业的其他成员密切合作,确保他们收到的警报是有价值并具备可操作性的。
与网络安全的大多数领域一样,开发有效的警报以避免警报疲劳需要多种方法。但最有效的方法就是安全团队成员能够跨职能工作,确保警报的优先级与严重性级别保持一致,且所有警报都有对应的流程。