Paper Library

CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution

Baoliang Tian, Yuxuan Si, Jilong Wang, Lingyao Li, Zhongyuan Bao, Zineng Zhou, Tao Wang, Sixu Li, Ziyao Xu, Mingze Wang, Zhouzhuo Zhang, Zhihao Wang, Yike Yun, Ke Tian, Ning Yang, Minghui Qiu

2025-11-19

2511.21717v1

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Francesco Giarrusso, Marcantonio Bracale, Marcello Galisai, Vincenzo Suriani, Olga Sorokoletova, Federico Sartore, Daniele Nardi

2025-11-19

red teaming

2511.15304v2

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Francesco Giarrusso, Marcantonio Bracale, Marcello Galisai, Vincenzo Suriani, Olga Sorokoletova, Federico Sartore, Daniele Nardi

2025-11-19

red teaming

2511.15304v1

Securing AI Agents Against Prompt Injection Attacks

Badrinath Ramakrishnan, Akshaya Balaji

2025-11-19

red teaming

2511.15759v1

Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks

Zimo Ji, Xunguang Wang, Zongjie Li, Pingchuan Ma, Yudong Gao, Daoyuan Wu, Xincheng Yan, Tian Tian, Shuai Wang

2025-11-19

red teaming safety

2511.15203v1

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

Xin Gao, Shaohan Yu, Zerui Chen, Yueming Lyu, Weichen Yu, Guanghao Li, Jiyao Liu, Jianxiong Gao, Jian Liang, Ziwei Liu, Chenyang Si

2025-11-19

2511.15169v2

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

Xin Gao, Shaohan Yu, Zerui Chen, Yueming Lyu, Weichen Yu, Guanghao Li, Jiyao Liu, Jianxiong Gao, Jian Liang, Ziwei Liu, Chenyang Si

2025-11-19

2511.15169v1

Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education

Xin Yi, Yue Li, Dongsheng Shi, Linlin Wang, Xiaoling Wang, Liang He

2025-11-18

2511.14423v1

Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation

Weimin Bai, Yubo Li, Weijian Luo, Zeqiang Lai, Yequan Wang, Wenzheng Chen, He Sun

2025-11-18

2511.14271v1

LLM-Aligned Geographic Item Tokenization for Local-Life Recommendation

Hao Jiang, Guoquan Wang, Donglin Zhou, Sheng Yu, Yang Zeng, Wencong Zeng, Kun Gai, Guorui Zhou

2025-11-18

2511.14221v1

N-GLARE: An Non-Generative Latent Representation-Efficient LLM Safety Evaluator

Zheyu Lin, Jirui Yang, Hengqi Guo, Yubing Bao, Yao Guan

2025-11-18

safety

2511.14195v1

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Hajun Kim, Hyunsik Na, Daeseon Choi

2025-11-18

red teaming

2511.14140v1

Mind the Gap: Evaluating LLM Understanding of Human-Taught Road Safety Principles

Chalamalasetti Kranti

2025-11-17

safety

2511.13909v1

Jailbreaking Large Vision Language Models in Intelligent Transportation Systems

Badhan Chandra Das, Md Tasnim Jawad, Md Jueal Mia, M. Hadi Amini, Yanzhao Wu

2025-11-17

red teaming

2511.13892v1

Transformer Injectivity & Geometric Robustness - Analytic Margins and Bi-Lipschitz Uniformity of Sequence-Level Hidden States

Mikael von Strauss

2025-11-17

2511.14808v1

Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification

Linhan Zhou, Shuang Li, Neng Dong, Yonghang Tai, Yafei Zhang, Huafeng Li

2025-11-17

2511.13575v1

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu

2025-11-17

red teaming

2511.13548v1

VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu

2025-11-17

red teaming

2511.13127v1

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im

2025-11-17

2511.13002v1

MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning

Crystal Su

2025-11-17

2511.12963v1

BrainNormalizer: Anatomy-Informed Pseudo-Healthy Brain Reconstruction from Tumor MRI via Edge-Guided ControlNet

Min Gu Kwak, Yeonju Lee, Hairong Wang, Jing Li

2025-11-17

2511.12853v1

November 17 - November 23, 2025

CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Securing AI Agents Against Prompt Injection Attacks

Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education

Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation

LLM-Aligned Geographic Item Tokenization for Local-Life Recommendation

N-GLARE: An Non-Generative Latent Representation-Efficient LLM Safety Evaluator

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Mind the Gap: Evaluating LLM Understanding of Human-Taught Road Safety Principles

Jailbreaking Large Vision Language Models in Intelligent Transportation Systems

Transformer Injectivity & Geometric Robustness - Analytic Margins and Bi-Lipschitz Uniformity of Sequence-Level Hidden States

Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning

BrainNormalizer: Anatomy-Informed Pseudo-Healthy Brain Reconstruction from Tumor MRI via Edge-Guided ControlNet

November 10 - November 16, 2025

LLM Reinforcement in Context

Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs