AI Threat Taxonomy

Comprehensive classification of AI security threats, attack vectors, and mitigation strategies

Total Threats

Critical

T1: Memory & State Attacks

T1.1: Memory Poisoningcritical

Malicious actors inject harmful content into AI agent memory systems to influence future behavior and responses

T1.2: Context Window Manipulationhigh

Exploiting limited context windows to hide malicious instructions or bypass safety checks

T2: Tool & Integration Attacks

T2.1: Tool Misusecritical

AI agents use integrated tools inappropriately or maliciously, potentially causing system compromise

T2.2: Plugin/Extension Vulnerabilitieshigh

Exploiting vulnerabilities in third-party plugins or extensions

T3: Privilege & Access Control

T3.1: Privilege Compromisecritical

Unauthorized elevation or abuse of AI system privileges

T3.2: Cross-Tenant Data Leakagecritical

Data leaking between different users or organizations

T4: Information Integrity

T4.1: Cascading Hallucinationhigh

False information propagating through interconnected AI systems

T4.2: Misinformation Injectionhigh

Deliberate injection of false information into AI responses

T5: Goal & Alignment Attacks

T5.1: Goal Hijackingcritical

Manipulating AI system objectives to achieve unintended outcomes

T5.2: Alignment Bypasscritical

Circumventing safety alignment and ethical constraints

T6: Identity & Authentication

T6.1: Identity Spoofinghigh

AI systems impersonating legitimate users or entities

T6.2: Authentication Bypasscritical

Circumventing authentication mechanisms in AI systems

T7: Execution & Code Attacks

T7.1: Remote Code Executioncritical

Executing arbitrary code through AI system vulnerabilities

T7.2: Supply Chain Attackscritical

Compromising AI systems through dependencies

T8: Autonomous Agent Risks

T8.1: Rogue Agent Behaviorcritical

AI agents acting outside intended parameters

T8.2: Agent Collusionhigh

Multiple AI agents coordinating for malicious purposes

T9: Deception & Manipulation

T9.1: Capability Concealment (Sandbagging)high

Models hiding true capabilities during evaluation

T9.2: Strategic Deceptionhigh

Training data corruption

Mitigation:

Implement data provenance and authenticity verification

Risk Assessment Matrix

Impact	Unlikely	Possible	Likely	Certain
Critical	Medium	High	Extreme	Extreme
High	Low	Medium	High	Extreme
Medium	Low	Low	Medium	High
Low	N/A	N/A	N/A	N/A

Extreme Risk

High Risk

Medium Risk

Low Risk