LSAST：通过LLM支持的静态应用安全测试增强网络安全

基本信息

原文标题：LSAST: Enhancing Cybersecurity through LLM-supported Static Application Security Testing

原文作者：Mete Keltek, Ziyue Li

作者单位：University of Cologne

关键词：漏洞扫描、大语言模型、静态应用安全测试、隐私保护、知识检索

原文链接：https://arxiv.org/pdf/2409.15735

开源代码：暂无

论文要点

论文简介：这篇论文提出了一种新方法，通过结合传统的静态应用安全测试（SAST）扫描器和大语言模型（LLM）的能力，创建了一个名为LSAST（LLM-supported Static Application Security Testing）的新系统。该系统旨在显著提高LLM在漏洞检测中的表现，尤其是在传统SAST扫描器难以捕获的地方。作者展示了LSAST的效率，并将其与现有的LLM技术进行了对比，解决了LLM依赖静态训练数据和隐私问题等挑战。通过使用开源的LLM并结合最新的漏洞信息，LSAST可以确保对新兴威胁的及时响应，同时确保代码隐私的安全。

研究目的：研究的核心目标是通过融合传统的SAST扫描器和LLM，提升漏洞检测的性能。LLM在漏洞检测领域的潜力已被初步证明，但存在诸多限制，如依赖静态数据集无法识别最新漏洞，以及将代码发送至第三方服务所带来的隐私风险。本文旨在通过将LLM与SAST扫描器结果相结合，突破这些限制，为未来的安全测试提供新的方法，并展示开源LLM如何在保障隐私的情况下，提高扫描结果的质量。

引言

网络安全领域的威胁不断演变，尤其是在大语言模型（LLM）的快速发展下，软件代码分析的能力得到了显著提升。然而，传统的安全测试工具（如SAST扫描器）由于依赖特定模式和静态分析，可能无法捕获最新的漏洞。同时，LLM尽管在代码分析中表现出色，但其静态数据集往往缺乏对最新漏洞的识别能力。此外，依赖外部LLM服务会带来隐私和安全问题，代码在传输过程中可能面临数据泄露或未经授权的访问。这些问题促使研究者开发新的方法，结合SAST扫描器的稳健性和LLM的学习能力，以提高漏洞检测的准确性。

本文提出的LSAST系统通过结合传统SAST扫描器和LLM，解决了LLM依赖静态训练数据的缺陷。具体来说，该方法利用LLM识别SAST扫描器未能检测出的漏洞，且避免了第三方LLM服务带来的隐私风险。此外，论文还探讨了如何通过开源LLM进行本地化部署，确保安全性，并使用最新的漏洞信息提升检测效果。

研究背景

随着全球网络犯罪成本预计从8.15万亿美元飙升至13.82万亿美元，网络攻击已变得越来越频繁和复杂。为应对这些威胁，安全扫描器成为检测潜在风险的关键工具。常见的安全扫描器主要分为两类：动态应用安全测试（DAST）和静态应用安全测试（SAST）。DAST通过与应用交互，模拟攻击者行为来发现系统中的安全漏洞，而SAST则通过静态分析代码查找已知的漏洞模式。两者的结合有助于更全面的漏洞检测。

大语言模型（LLM）的发展使其在代码漏洞检测领域展现出巨大的潜力。由于LLM可以分析大量数据并识别复杂的模式，它们能够补充传统的SAST工具，检测到一些潜在的安全隐患。然而，LLM依赖于静态数据集，无法应对新型漏洞的快速变化，因此需要引入动态更新的知识检索机制来弥补这一缺陷。

研究方法

LSAST系统的核心在于将传统SAST扫描器的输出与LLM结合，形成高效的漏洞检测工具。具体实施步骤如下：

1. 选择合适的SAST扫描工具：本文选择了开源的Bearer SAST扫描器，该工具响应快速，且支持多种数据格式输出，便于与LLM集成。

2. SAST扫描器输出整合：将SAST扫描器的结果与待分析代码的行号信息结合，确保LLM可以准确理解哪些部分存在潜在漏洞。

3. LLM提示设计：通过精心设计的提示，指导LLM专注于SAST未能检测到的部分，进一步提高漏洞发现的效率。LLM仅输出100%确定存在的漏洞，避免误报。

4. 知识检索系统：为了确保LLM掌握最新的漏洞信息，论文引入了基于检索增强生成的知识检索系统，从HackerOne等漏洞报告平台获取最新的漏洞信息，动态丰富LLM的知识库。

5. 代码抽象与相似性搜索：通过对代码进行抽象处理，并利用矢量数据库进行相似性搜索，帮助LLM识别与已知漏洞相似的代码结构，进一步提高检测效果。

研究评估

本文通过多个开源项目（如DVWA、OWASP Juice Shop等）的测试，验证了LSAST在不同编程语言（如Java、JavaScript、PHP等）中的表现。研究表明，结合SAST扫描器和LLM的系统比单独使用LLM或SAST扫描器的漏洞检测效果更好。通过比较不同方法的准确率、精确度和F1得分，作者发现LSAST在真实环境中的表现尤为出色，能够发现传统SAST工具未能检测到的漏洞。

此外，LSAST在现实应用中的测试结果表明，它能够有效检测到多种高风险漏洞，包括代码注入和远程代码执行等，这进一步证明了其在实际项目中的实用性。

论文结论

本文通过将大语言模型与静态应用安全测试工具结合，提出了一种新型漏洞检测方法LSAST。该方法在保持隐私和安全性的同时，显著提升了漏洞检测能力。通过使用最新的漏洞报告，LSAST能够动态更新LLM的知识库，解决了LLM依赖静态数据集的缺陷。研究还证明，LSAST在现实项目中表现出色，能够检测到传统工具无法发现的漏洞。

未来的研究方向包括改进知识检索系统、优化代码抽象方法，以及探索如何在不切分代码的情况下扫描整个代码库。LSAST的开发为LLM在静态代码分析中的应用提供了新的思路，并展示了其在未来网络安全领域的潜力。

原作者：论文解读智能体

校对：小椰风

声明：本文来自安全极客，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

LSAST：通过LLM支持的静态应用安全测试增强网络安全

被Gartner排在首位的技术趋势，将如何深刻影响网络安全？

公共数据授权运营数据安全合规研究

攻击图谱：从实践者的角度看生成式人工智能红队测试中的挑战与陷阱