基本信息
原文标题: AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations Using Fine-Tuned and Open-Source LLMs
原文作者: Varun Badrinath Krishna
作者单位: SambaNova Systems
关键词: 网络安全、检索增强生成(RAG)、开源LLM、数据集开发、SOC
原文链接: https://arxiv.org/pdf/2411.01073
开源代码: 暂无
论文要点
论文简介:近年来,大语言模型(LLM)在回答复杂领域问题方面表现出色,尤其是在微调后的特定领域数据集上,生成准确、上下文相关的答案能力大幅提高。本研究提出了一个名为AttackQA的网络安全问答(Q&A)数据集,专为支持安全运营中心(SOC)分析师设计。该数据集基于MITRE ATT&CK知识库开发,包含25,335对问答及其推理,80%的内容由开源LLM自动生成。研究表明,通过对开源嵌入模型和生成模型的微调,能够显著超越OpenAI的专有模型(如GPT-4o)在准确性和效率上的表现,形成一套低延迟、高性能的端到端检索增强生成(RAG)系统。
研究目的:安全运营中心(SOC)是现代企业网络安全的核心,但也面临诸多挑战,例如技能短缺、过多时间花费在警报调查上以及对高级威胁的响应迟缓等。传统上,SOC团队需耗费巨资培训员工使用复杂的网络安全工具,仅培养10名分析师就需约369万美元,而这对大多数企业来说成本高昂且难以承受。
本研究旨在通过人工智能技术开发一套网络安全问答系统,帮助SOC分析师快速获得网络攻击相关问题的高质量答案。系统完全依托开源大语言模型,通过微调与优化,不仅提升了准确性,还降低了部署与使用成本。其核心目标是简化SOC分析师的工作流程,加速网络攻击的检测与响应,从而提升网络安全运营的效率。
研究贡献:
1. 高质量网络安全数据集创建:利用开源LLM生成并微调了基于MITRE ATT&CK知识库的高质量问答数据集AttackQA。
2. 数据质量控制:通过微调Llama 3 70B模型,自动筛选并剔除低质量的问答对,确保数据集的整体质量。
3. 嵌入模型性能提升:在检索任务中,微调的嵌入模型表现优异,其上下文召回率显著高于未优化模型和OpenAI最先进的嵌入模型。
4. 生成模型优化:通过Llama 3 405B对生成结果的评估,证明微调后的生成模型在生成准确性和回答推理能力上均超越了更大规模的专有模型。
5. 构建高效RAG管道:开发了一套精准、低延迟的RAG系统,能够快速服务于SOC分析师的问答需求。
引言
安全运营中心(SOC)是企业网络安全的核心枢纽,其职责涵盖威胁检测、调查与响应。然而,当前SOC的运作效率仍面临巨大挑战。一项研究指出,企业每年在SOC上的平均投入高达1460万美元,其中80%用于人力成本。即便如此,SOC团队仍需要投入大量时间来应对警报和高级威胁。此外,学习掌握多种安全工具也增加了培训成本和技术门槛。
为了减轻这些挑战并提升SOC的效率,本研究提出了一种基于问答系统的解决方案。通过微调开源LLM,研究者开发了AttackQA数据集,并利用该数据集构建了一套RAG框架下的问答系统。数据集来源于MITRE ATT&CK知识库,这是一个基于真实世界网络攻击行为的数据库,涵盖攻击技术、工具、策略和缓解方法。然而,由于其原始数据结构复杂,不适合直接用于问答任务,因此研究团队对其进行了重组和优化,使其能够高效服务于LLM的训练与推理。
相关工作
此前已有研究证明,使用LLM生成、整理和评估合成数据集是提升模型性能的重要途径。例如,Atlas和RankRAG等模型在特定领域的检索增强生成任务中表现突出。然而,这些研究大多依赖于专有模型和复杂的技术,而本研究的创新之处在于利用完全开源的LLM,结合轻量化的优化策略,实现了更高的性价比与性能表现。
问答数据集创建
论文描述了数据集AttackQA的开发过程,核心步骤包括:
1. 数据提取与处理:从MITRE ATT&CK知识库提取了涉及攻击技术、策略、工具、组织及缓解方法的关键信息,并将其整理为适合LLM训练的文档格式。
2. 问题生成:通过结合人工和LLM的方式生成问答对,其中20%由人工设计,涵盖复杂且具有覆盖性的网络安全问题,其余80%由Llama 3 8B自动生成。
3. 数据质量控制:引入Llama 3 70B模型,通过微调实现对问答对的评分与筛选,最终保留25,335个高质量问答对。
最终,数据集包含25,335个问答对,为系统微调与评估提供了坚实基础。
用于RAG模型微调
论文对检索增强生成模型的嵌入与生成部分分别进行了微调:
1. 嵌入模型微调:利用问答数据中的相关文档对,提升模型的检索准确性。
2. 生成模型微调:通过对包含干扰文档的上下文进行训练,使生成模型能够准确回答问题。
3. 优化策略:在训练集中加入“无答案”情况的例子,以减少模型生成错误答案的可能性。
微调后的模型在上下文检索准确性和答案生成质量上均超过了开源基线模型和OpenAI的专有模型。
研究评估
论文使用多个指标评估了RAG系统的性能,包括:
1. 上下文检索回忆率:微调后的嵌入模型在检索相关文档时准确率高达92.18%。
2. 回答生成质量:通过评估模型回答的正确性,证明微调后的生成模型在答案准确性上提升了26个百分点。
3. 综合性能比较:微调后的开源模型在回答准确性上甚至超越了OpenAI的GPT-4o。
论文结论
论文开发了一套完整的网络安全问答系统,从数据集生成到模型微调和性能评估,均展示出开源模型的巨大潜力。AttackQA数据集为领域内的进一步研究提供了重要基础,而优化后的RAG模型则显著提升了SOC分析员处理网络威胁的效率。这一工作证明,经过微调的开源LLMs能够在特定领域中挑战甚至超越专有技术,为开源社区和网络安全领域的发展注入新活力。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。