★尚文利,朱鹏程,王博文,曹忠,张曼,浣沙广州大学电子与通信工程学院
摘要:随着万物互联时代的到来,网络空间的攻击面不断拓展延伸,安全问题日益凸显。为应对复杂多变的网络攻击,构建威胁情报的知识图谱是核心和基础,利用威胁情报知识图谱将专家知识与海量安全数据相结合,有助于推动网络安全智能防御技术从感知智能迈向认知智能。本文提出了构建威胁情报知识图谱的技术架构,设计了一种网络安全知识本体,并总结了当前国内外实体识别技术与关系抽取技术的研究现状,最后分析了威胁情报知识图谱的未来研究发展方向及应用场景。
关键词:网络安全;知识图谱;实体识别;关系抽取
1 引言
近年来,随着5G、云计算、物联网等新一代信息技术的飞速发展,万物互联(Internetof Everything,IoE)的时代即将到来,网络空间规模持续扩张,将人类社会与工业物理系统紧密串联。与此同时,网络安全问题空前严峻,新型攻击行为层出不穷,呈现出复杂多样性、长期持续性、高隐蔽性的特点。尤其是频发的高级持续性威胁(Advanced PersistentThreat,APT)事件,涉及关键信息基础设施的破坏与公民信息的窃取,严重危害社会、经济、政治安全,已上升至国家网络空间安全战略层面。
传统的被动式网络安全防御手段,如单纯依赖网络流量监测的入侵检测系统等,难以应对系统性大规模复杂多变的网络攻击,而大数据、人工智能等技术的兴起为网络空间安全提供了新助力。各大网络安全厂商、研究机构均已建立网络安全论坛、漏洞信息库、威胁情报中心等。如何有效管理和精准利用海量碎片化的威胁情报,挖掘出具有潜在价值的信息,将防御化被动转为主动是当前面临的主要问题之一。
威胁情报知识图谱是第三代人工智能技术运用至网络安全领域的产物,是融合先验安全专家知识而形成的大规模安全语义网络。该图谱通过从海量零散分布的多源异构网络安全数据中提取出安全类实体及实体间关系,以图语言形式高效、直观地表示。同时该图谱模拟专家思维进行威胁分析,推理发现漏洞,制定最佳防御策略,全面提升风险防范的准确性、预见性及对威胁攻击的反制速度。因此,构建威胁情报知识图谱,是推动网络安全智能防御技术从依赖数据驱动的感知智能,迈向融合知识驱动的认知智能的关键。
威胁情报知识图谱的技术架构如图1所示,关键技术主要包括三个层次:安全知识本体建模、安全信息抽取技术、知识图谱存储,构建过程环环相扣。
(1)在确定图谱所属专业领域后,对其知识本体进行建模。首先调研和收集安全领域内全部相关术语,因本体主要为解决知识共享问题,故优先考虑复用现有本体的可能性。对现有本体研究分析后,依据最新国际威胁情报共享标准手工构建,对其进一步改进拓展。(2)安全信息抽取主要分为实体识别技术与关系抽取技术。根据所设计知识本体以节点、边、节点三元组形式从海量威胁情报中抽取实体及实体间关系。(3)最后依据应用场景,选择不同类型数据库对已抽取数据进行存储。
图1 威胁情报知识图谱的技术架构构建图
2 网络安全知识本体建模
知识本体是以实体类型为节点,以实体间关系为边,对知识抽象化表示所形成的完整关系链。本体构建方法通常有自顶向下和自底向上两类。构建专业领域知识本体,往往需要对领域内知识的全覆盖,且冗余较少。同时,良好的知识本体设计还应当兼顾图谱,具备较好的“细粒程度”,以便图谱后续进行更新、推理、消歧等技术的研究。图谱节点概念太过泛化将导致可操作性差,而过度细化又将极易出现信息缺失问题。
本研究基于MITRE公司制定的结构化威胁情报共享标准2.0(StructuredThreatInformation eXpression2.0,STIX2.0),采取自顶向下的方式设计网络安全知识本体。具体的网络安全知识本体结构如图2所示。该模型以黑客组织为核心建立其关系网状结构,选择定义了以下13类实体类型:黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞、特征,同时定义了以下6类实体间关系:属于、拥有、发起、防御、使用、利用。
图2 网络安全知识本体模型
3 网络安全信息抽取
3.1 实体识别技术
(1)技术介绍
网络安全实体识别技术本质是自然语言处理中特定领域的序列标注问题,主要任务是从海量的半结构化、非结构化安全数据中抽取预定义类别的实体,例如黑客组织、安全团队、样本文件、漏洞等类型安全实体。其目的是对海量多源异构安全数据进行细粒度的深度关联分析和挖掘,对安全领域内专业词汇进行确认和分类。安全实体识别也是构建威胁情报知识图谱的基础。
网络安全实体识别技术相较于通用领域内的实体识别技术,由于关注的实体类别不同,存在以下难点[1]:
·安全实体类型多且变化频率高,不断涌现新实体导致OOV(OutofVocabulary)问题。
·安全实体结构复杂,存在大量嵌套、别名、缩略词等多意现象,没有严格的命名规则。
·威胁情报通常单句较长,句子中实体稀疏,邻近实体标签间的特征不足,更加依赖于远距离特征的获取。
·当前缺乏大规模高质量的网络安全实体标注语料库,严重依赖人工标注构建模型训练集。
(2)国内外研究现状
早期的安全实体识别基于安全专家制定的规则与词典进行实体抽取。例如Liao等人于2016年提出使用正则表达式结合语法树的方式,提取威胁情报中的失陷指标(Indicator of compromise,IOC)[2]。
该方式通过专家设定规则,基于正则表达式和词典对网络安全实体及关系所在的位置进行定位,然后使用语法树相似度判断定位范围的内容是否包含实体及关系。此方式的优势在于准确率高,但缺陷明显,存在人工成本高和移植性差等问题,且由于领域的特殊性,此方式仅适用一些结构特征明显的实体,例如通用漏洞披露(Common Vulnerabilities and Exposures,CVE)编号、邮箱地址、IP地址等。随着大数据与人工智能技术的发展,深度学习技术被运用至安全实体识别领域。Qin等人于2019年,使用人工设计特征模板加深度学习的方式,提出FT-CNN-BiLSTM-CRF模型[3]。该方式利用人工设定的特征窗口提取上下文特征,与BiLSTM模型提取的序列语义特征结合,进行实体识别。李涛于2020年,提出基于多特征融合的威胁情报命名实体识别模型(MF-BiLSTM-LSTM)[4],开创性地通过融合实体的词、字符和句法依存特征,使模型性能进一步提升。此方式降低了人工成本,同时提升了模型移植性,但模型效果严重依赖安全领域所缺少的大规模网络安全实体标注训练集。近年来,随着大规模预训练实体识别模型(BERT)的问世,研究者们逐渐将目光转向了利用超大规模预训练语料库、基于双向Transformer编码器对未标记文本深度表示的预训练模型。基于符合SIX2.0的DNRTI威胁情报实体识别数据集,Evangelatos等人于2021年,分别使用4个大规模预训练模型进行对比试验[5]。Zhou等人于2022年,设计出一种基于大规模预训练的BERT-BiLSTMGRU-CRF模型[6],创新性地将GRU层与原BiLSTM相结合,有效降低了模型过拟合风险,提升了模型效果。Liu等人于2022年,在使用大规模预训练模型的同时,对单词的成分特征、形态特征和语音特征进行编码和汇总,以融合多特征方式,提升了模型对上下文语义的表达能力[7]。
以上研究表明,添加大规模预训练模型和融合多句法特征,将显著增强实体识别模型对网络安全文本的语义表达能力,可有效缓解OOV问题、一词多义以及对训练集的强依赖问题。
(3)实体识别技术新思路
解决当前安全实体识别所面临的困境,关键是增强模型对威胁情报文本语义的表达能力。本文提出了以下几种方法:①融合多个大规模预训练模型对文本向量表示的输出。由于预训练模型包含了从大规模语料库中学习到的上下文信息,串联不同种类的预训练模型有助于获取更多异质性上下文,极大丰富模型对威胁情报文本的语义表达。②融合多个句法信息,例如词性、语法成分、依赖关系等。添加新特征,增强模型对标签的推理能力,缓解OOV问题。③添加全局注意力机制层,增强模型对远距离特征的获取能力,缓解实体稀疏问题。
3.2 关系抽取技术
(1)技术介绍
在网络安全知识图谱的构建过程中,当提取好网络安全实体后,需利用关系将存在联系的实体编织在一起,最终形成一个庞大的拓扑信息网。关系抽取同样是网络安全知识图谱构建的核心任务,而关系抽取的本质,就是从非结构化文本语料中提取两个实体之间存在的关系。
(2)国内外研究现状
关系抽取的方法繁多,早期大部分的研究都是用基于规则的方法,该方法拥有准确率高、表示直观等优点,但其成本过高、应用范围狭窄。随着人工智能的发展,基于深度学习的方法因灵活性高、应用范围广等特点受到了很多领域学者的争先研究。不过由于其需要大量人工标注的数据来进行训练,所以根据标注数据的精准程度又被分成基于监督学习的方法、基于远程监督学习的方法等。Wang等人提出了一个融合语义特征和依赖特征的威胁情报关系抽取框架[8]。
该框架运用了一种新的剪枝策略(SDP-VP),大大降低了句法依赖树中的噪声枝影响,从而提升了模型效果,不过该模型对于句子本身语义信息的利用还不够充分。Zhou等人针对关系抽取中实体的表示形式展开了一系列研究,将预处理语言模型(PLM)与实体类型嵌入改进得到了一个新的关系抽取基线模型[9]。该模型将实体类型嵌入到文本语句当中去增强实体对之间的联系,但是其应用受实体提取结果影响较大。Tian等人提出了一种配备多种句法依赖信息的Bert+A-GCN模型[10]。该模型利用注意力机制智能裁剪权重较低、信息量较少的关系枝,降低了句法依存树中的噪声影响,并将配备依赖类型的局部与全局依赖信息结合生成结合邻接矩阵,进一步加强了实体对之间依赖信息的影响,进而提升了模型的效果。
Takanobu等人提出了一种分层提取范式,通过分层强化学习来处理关系提取[11]。该范式将实体视为关系的参数,并将关系提取任务分解为两个子任务的层次结构:高级关系指标检测和低级实体提取,针对远程监督噪声较多的数据集,增强了其关系抽取的稳定性,降低了远程监督数据集噪声数据过多问题对实验造成的影响,并且对于重叠关系的提取效果也得到了很大的提升。Li等人提出了一种基于全局和局部特征的感知网络(GLFN)[12],增强了网络模型对文本语料重要语义特征的理解,并通过残差网络动态降低了噪声数据的影响。Chen等人提出了一种具有协同优化(KnowPrompt)的知识感知提示调整方法[13]。该方法中“提示调整”的核心思想是将文本片段(即模板)插入到输入中,并将分类任务转换为掩码语言建模问题,专注于将关系标签之间的知识整合到关系提取的提示调整中。该方法充分利用了关系标签之间存在着的丰富的语义和先验知识,不过其只适用于有标记数据的监督学习环境。Luo等人针对威胁情报领域关系抽取数据集问题提出新的关系提取框架[14]。该框架采用远程监督进行数据标注,并采用神经网络模型进行关系提取,大大降低了数据集标注的人力成本,为解决网络安全领域关系抽取数据集缺乏的问题打开了一个新的思路,不过该方法最终得到的数据集噪声数据过多且质量偏低。
(3)关系抽取技术新思路
安全关系抽取的关键在于实体对所在文本本身的语义信息和句法依赖信息以及模型的选取。为了能够得到更高的安全关系抽取准确率,本文提出通过变换文本本身语义信息和句法依赖信息的获取形式,加强实体对之间的联系,以及选取更合适的预处理语言模型。同时由于现阶段关系抽取技术大多基于流水线形式,关系抽取发生在实体抽取之后,容易造成错误积累,从而降低关系抽取的准确率。利用实体和关系联合抽取的方式,是消除此类错误积累问题的解决办法之一。
4 知识图谱存储
完成威胁情报的信息抽取后,对所得到的威胁情报实体及实体关系进行数据库入库。目前主要的知识图谱存储方式有两种:(1)基于资源描述框架结构的存储方式;(2)基于图数据库的存储方式。资源描述框架(Resource Description Framework,RDF)是W3C制定的用于描述实体资源的标准数据模型,它通过三元组的方式存储,优势在于拥有强大的语义表达能力,同时具有良好的互通性,容易传输。RDF资源管理数据库也是目前主流存储知识图谱的方式,但存在可读性差、搜索效率低等缺陷。常见的资源描述框架结构数据库有Protege、Owlready2等。近些年兴起通过图数据库方式存储知识图谱,其优势在于图本身可天然表示图谱结构等信息,容易管理,支持各类图挖掘、推理算法,同时搜索效率高、速度快,尤其适用于多跳查询。缺点是图数据库的分布式存储实现代价高,数据更新慢。常见的图数据库有Neo4j、Tita、OrientDB等。
5 威胁情报知识图谱应用场景
随着知识图谱相关技术的高速发展,威胁情报知识图谱现已经广泛地运用至各类网络安全智能防御系统当中。例如:
(1)姿态感知和安全评估[15]。随着部署在企业网络的设备和服务的不断迭代更新,其组合模式也变得越来越复杂,导致评估企业网络整体安全性变成了一项极具挑战的任务。企业网络的安全管理员通过运用威胁情报图谱,能充分掌握当前网络空间资产及其暴露面,能更好地应对多阶段、多主机的攻击场景。
(2)APT威胁追踪。近年来APT组织的网络攻击手段不断升级,威胁情报知识图谱可针对不同APT组织的行为特征,通过统一语言描述,构建APT组织画像。利用威胁情报知识图谱对攻击行为进行分析,可实现对已知攻击组织的追踪和对未知攻击团伙的识别。
(3)漏洞管理。漏洞是所有黑客组织入侵的关键所在,如何高效发现、监控和管理漏洞是网络安全的重中之重。利用威胁情报知识图谱技术可高效整合海量非结构化威胁情报来收集漏洞,以更加直观的图语言表示。同时利用图谱推理能力,可获取漏洞导致的潜在暴露面及其风险信息等。
6 总结
近几年,人工智能技术在网络安全上的运用受到学术界和工业界的广泛关注。威胁情报知识图谱是推动网络安全智能防御技术从感知智能迈向认知智能的关键。然而,其图谱构建技术与应用场景的研究仍处于早期阶段。本文提出了构建威胁情报知识图谱的技术架构,设计了基于STIX的安全知识本体,总结了当前国内外的网络安全信息抽取技术并提出了新思路,为威胁情报的图谱构建技术、图谱推理技术、图谱应用场景等研究提供了借鉴和思路。
作者简介
尚文利(1974-),男,黑龙江北安人,教授,博士,现任教于广州大学电子与通信工程学院,主要从事计算智能与机器学习、工业信息安全、边缘计算方面的研究。
朱鹏程(1998-),男,硕士,江西南昌人,现就读于广州大学电子与通信工程学院,主要从事知识图谱、车联网威胁分析方面的研究。
王博文(1999-),男,湖南邵阳人,硕士,现就读于广州大学电子与通信工程学院,主要从事知识图谱、车联网威胁分析方面的研究。
曹 忠(1977-),男,安徽黄山人,讲师,博士,现任教于广州大学电子与通信工程学院,主要从事工业互联网方面的研究。
张 曼(1984-),女,陕西西安人,讲师,博士,现任教于广州大学电子与通信工程学院,主要从事智能软件工程及软件体系结构领域的相关工作。
浣 沙(1984-),女,湖南长沙人,讲师,博士,现任教于广州大学电子与通信工程学院,研究方向为宽带雷达通信一体化技术,以及此技术在毫米波多用户场景下的应用、阵列雷达信号处理、抗干扰技术、前视雷达成像技术。
参考文献:
[1] Xuren Wang, et al. APTNER: A Specific Dataset for NER Missions in Cyber Threat Intelligence Field[C]. 2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design (CSCWD), Hangzhou, China, 2022 : 1233 - 1238.
[2] Xiaojing Liao, Kan Yuan, Xiaofeng Wang, et al. Acing the IOC Game: Toward Automatic Discovery and Analysis of Open-Source Cyber Threat Intelligence[C]. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (2016).
[3] Ya Qin, Guowei Shen, Wenbo Zhao, Yanping Chen, Miao Yu, Xin Jin. A network security entity recognition method based on feature template and CNN BiLSTM-CRF[J]. Frontiers of Information Technology & Electronic Engineering 20 (2019) : 872 - 884.
[4] 李涛. 威胁情报知识图谱构建与应用关键技术研究[D]. 战略支援部队信息工程大学, 2020.
[5] Pavlos Evangelatos, Christos lliou, Thanassis Mavropoulos, et al. Named Entity Recognition in Cyber Threat Intelligence Using Transformer-based Models[C]. 2021 IEEE International Conference on Cyber Security and Resilience (CSR), Rhodes, Greece, 2021, 348 - 353.
[6] Yinghai Zhou, Yi Tang, Ming Yi, Chuanyu Xi, Hai Lu. CTI View: APT Threat Intelligence Analysis System[J]. Secur. Commun. Networks 2022 (2022) : 1 - 15.
[7] Peipei Liu, Hong Li, Zuoguang Wang, et al. Multi-features based Semantic Augmentation Networks for Named Entity Recognition in Threat Intelligence[C], 2022 26th International Conference on Pattern Recognition (ICPR), Montreal, QC, Canada, 2022, 1557 - 1563.
[8] Xuren Wang, Xinpei Liu, Shengqin Ao, et al. FSSRE: Fusing Semantic Feature and Syntactic Dependencies Feature for Threat Intelligence Relation Extraction[J].
[9] Wenxuan Zhou, Muhao Chen. An Improved Baseline for Sentence-level Relation Extraction[C]. AACL, 2021.
[10] Yuanhe Tian, Guimin Chen, Yan Song, et al. Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks[C]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2021 : 4458 - 4471.
[11] Ryuichi Takanobu, Tianyang Zhang, Jiexi Liu, et al. A Hierarchical Framework for Relation Extraction with Reinforcement Learning[C]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33 (01) : 7072 - 7079.
[12] Ping Li. Correlation temporal feature extraction network via residual network for English relation extraction[J]. EAI Endorsed Transactions on Scalable Information Systems, 2022, 9 (36).
[13] Xiang Chen, Ningyu Zhang, Xin Xie, et al. KnowPrompt : Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction[C]. Proceedings of the ACM Web Conference 2022, 2022 : 2778 - 2788.
[14] Yali Luo, Shengqin Ao, Ning Luo, et al. Extracting threat intelligence relations using distant supervision and neural networks[C]. Advances in Digital Forensics XVII : 17th IFIP WG 11.9 International Conference, 2021 : 193 - 211.
[15] Kai Liu, Fei Wang, Zhaoyun Ding, et al. A review of knowledge graph application scenarios in cyber security[J/OL].
《自动化博览》2023年1月刊暨《工业控制系统信息安全专刊(第九辑)》