Paper Library

Bidirectional Intention Inference Enhances LLMs' Defense Against Multi-Turn Jailbreak Attacks

Haibo Tong, Dongcheng Zhao, Guobin Shen, Xiang He, Dachuan Lin, Feifei Zhao, Yi Zeng

2025-09-25

red teaming safety

2509.22732v1

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

2025-09-25

red teaming

2509.21029v2

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

2025-09-25

red teaming

2509.21029v1

Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan

2025-09-25

safety

2509.20680v1

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

Wenhan Wu, Zheyuan Liu, Chongyang Gao, Ren Wang, Kaize Ding

2025-09-24

red teaming

2509.20230v3

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

Wenhan Wu, Zheyuan Liu, Chongyang Gao, Ren Wang, Kaize Ding

2025-09-24

2509.20230v2

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

Wenhan Wu, Zheyuan Liu, Chongyang Gao, Ren Wang, Kaize Ding

2025-09-24

red teaming

2509.20230v1

JaiLIP: Jailbreaking Vision-Language Models via Loss Guided Image Perturbation

Md Jueal Mia, M. Hadi Amini

2025-09-24

red teaming

2509.21401v1

SafeSteer: Adaptive Subspace Steering for Efficient Jailbreak Defense in Vision-Language Models

Xiyu Zeng, Siyuan Liang, Liming Lu, Haotian Zhu, Enguang Liu, Jisheng Dang, Yongbin Zhou, Shuchao Pang

2025-09-24

2509.21400v1

bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He

2025-09-24

red teaming

2509.19775v1

Algorithms for Adversarially Robust Deep Learning

Alexander Robey

2025-09-23

red teaming

2509.19100v1

Rule Encoding and Compliance in Large Language Models: An Information-Theoretic Analysis

Joachim Diederich

2025-09-23

2510.05106v2

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

Caleb DeLeeuw, Gaurav Chawla, Aniket Sharma, Vanessa Dietze

2025-09-23

safety

2509.20393v1

LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs

Tom Pawelek, Raj Patel, Charlotte Crowell, Noorbakhsh Amiri, Sudip Mittal, Shahram Rahimi, Andy Perkins

2025-09-23

red teaming

2509.18557v1

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs

Alexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping

2025-09-22

red teaming safety

2509.18058v2

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM

Alexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping

2025-09-22

red teaming safety

2509.18058v1

D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas

2025-09-22

red teaming

2509.17938v1

Design and Implementation of a Secure RAG-Enhanced AI Chatbot for Smart Tourism Customer Service: Defending Against Prompt Injection Attacks -- A Case Study of Hsinchu, Taiwan

Yu-Kai Shih, You-Kai Kang

2025-09-22

red teaming

2509.21367v1

SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models

Haotian Xu, Qingsong Peng, Jie Shi, Huadi Zheng, Yu Li, Cheng Zhuo

2025-09-22

red teaming

2509.17371v2

September 22 - September 28, 2025

Bidirectional Intention Inference Enhances LLMs' Defense Against Multi-Turn Jailbreak Attacks

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization

JaiLIP: Jailbreaking Vision-Language Models via Loss Guided Image Perturbation

SafeSteer: Adaptive Subspace Steering for Efficient Jailbreak Defense in Vision-Language Models

bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

Algorithms for Adversarially Robust Deep Learning

Rule Encoding and Compliance in Large Language Models: An Information-Theoretic Analysis

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM

D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

Design and Implementation of a Secure RAG-Enhanced AI Chatbot for Smart Tourism Customer Service: Defending Against Prompt Injection Attacks -- A Case Study of Hsinchu, Taiwan

SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models

September 15 - September 21, 2025

DecipherGuard: Understanding and Deciphering Jailbreak Prompts for a Safer Deployment of Intelligent Software Systems

AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software

AIPsychoBench: Understanding the Psychometric Differences between LLMs and Humans

Domain-Specific Constitutional AI: Enhancing Safety in LLM-Powered Mental Health Chatbots

Randomized Smoothing Meets Vision-Language Models