Paper Library - AI Security News

Showing 1169 papers total

December 29 - January 04, 2026

10 papers

CSSBench: Evaluating the Safety of Lightweight LLMs against Chinese-Specific Adversarial Patterns

Zhenhong Zhou, Shilinlu Yan, Chuanpu Liu, Qiankun Li, Kun Wang, Zhigang Zeng

2026-01-02

safety

2601.00588v2

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

Hyunjun Kim

2026-01-01

2601.00454v1

$α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks

Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah

2026-01-01

safety

2601.03281v1

Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak

Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin

2026-01-01

red teaming safety

2601.00213v1

Language Model Agents Under Attack: A Cross Model-Benchmark of Profit-Seeking Behaviors in Customer Service

The Silicon Psyche: Anthropomorphic Vulnerabilities in Large Language Models

Giuseppe Canale, Kashyap Thimmaraju

2025-12-30

red teaming

2601.00867v1

Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

Panagiotis Theocharopoulos, Ajinkya Kulkarni, Mathew Magimai. -Doss

2025-12-29

red teaming

2512.23684v1

Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks

Toqeer Ali Syed, Mishal Ateeq Almutairi, Mahmoud Abdel Moaty

2025-12-29

2512.23557v1

Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems

Armstrong Foundjem, Lionel Nganyewou Tidjon, Leuson Da Silva, Foutse Khomh

2025-12-29

red teaming

2512.23132v1

It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents

Karolina Korgul, Yushi Yang, Arkadiusz Drohomirecki, Piotr Błaszczyk, Will Howard, Lukas Aichberger, Chris Russell, Philip H. S. Torr, Adam Mahdi, Adel Bibi

2025-12-29

red teaming

2512.23128v1

December 22 - December 28, 2025

7 papers

Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

Kerem Zaman, Shashank Srivastava

2025-12-28

2512.23032v1

Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs

Jiayu Hu, Beibei Li, Jiangwei Xia, Yanjun Qin, Bing Ji, Zhongshi He

2025-12-26

2512.21999v1

AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs

Yihan Wang, Huanqi Yang, Shantanu Pal, Weitao Xu

2025-12-24

red teaming

2512.20986v1

ChatGPT: Excellent Paper! Accept It. Editor: Imposter Found! Review Rejected

Kanchon Gharami, Sanjiv Kumar Sarkar, Yongxin Liu, Shafika Showkat Moni

2025-12-23

red teaming

2512.20405v2

AprielGuard

Jaykumar Kasundra, Anjaneya Praharaj, Sourabh Surana, Lakshmi Sirisha Chodisetty, Sourav Sharma, Abhigya Verma, Abhishek Bhardwaj, Debasish Kanhar, Aakash Bhagat, Khalil Slimi, Seganrasan Subramanian, Sathwik Tejaswi Madhusudhan, Ranga Prasad Chenna, Srinivas Sunkara

2025-12-23

red teaming

2512.20293v2

PromptScreen: Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline

Akshaj Prashanth Rao, Advait Singh, Saumya Kumaar Saksena, Dhruv Kumar

2025-12-22

red teaming

2512.19011v2

Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline

Akshaj Prashanth Rao, Advait Singh, Saumya Kumaar Saksena, Dhruv Kumar

2025-12-22

2512.19011v1

December 15 - December 21, 2025

7 papers

Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness

Haotian Deng, Chris Farber, Jiyoon Lee, David Tang

2025-12-21

red teaming

2601.08843v1

Beyond the Benchmark: Innovative Defenses Against Prompt Injection Attacks

Safwan Shaheer, G. M. Refatul Islam, Mohammad Rafid Hamid, Tahsin Zaman Jilan

2025-12-18

red teaming

2512.16307v1

MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval

Saksham Sahai Srivastava, Haoyu He

2025-12-18

red teaming

2512.16962v1

Quantifying Return on Security Controls in LLM Systems

Richard Helder Moulton, Austin O'Brien, John D. Hastings

2025-12-17

red teaming

2512.15081v1

Trust in LLM-controlled Robotics: a Survey of Security Threats, Defenses and Challenges

Xinyu Huang, Shyam Karthick V B, Taozhao Chen, Mitch Bryson, Thomas Chaffey, Huaming Chen, Kim-Kwang Raymond Choo, Ian R. Manchester

2025-12-17

red teaming

2601.02377v1

Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks

Viet K. Nguyen, Mohammad I. Husain

2025-12-16

red teaming

2512.14860v1

Cisco Integrated AI Security and Safety Framework Report

Amy Chang, Tiffany Saade, Sanket Mendapara, Adam Swanda, Ankit Garg

2025-12-15

red teaming

2512.12921v1

‹ 1 2 3 ... 13 14 15 ... 47 48 49 ›