Paper Library

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen

2025-12-02

2512.04124v2

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen

2025-12-02

2512.04124v1

Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions

Piercosma Bisconti, Marcello Galisai, Federico Pierucci, Marcantonio Bracale, Matteo Prandi

2025-12-02

safety

2512.02682v1

When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

Tsimur Hadeliya, Mohammad Ali Jauhar, Nidhi Sakpal, Diogo Cruz

2025-12-02

safety

2512.02445v1

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He, Junjie Xiong

2025-12-02

safety

2512.02318v2

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He, Junjie Xiong

2025-12-02

safety

2512.02318v1

DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses

Han Luo, Guy Laban

2025-12-01

safety

2512.02282v1

Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks

Haowei Fu, Bo Ni, Han Xu, Kunpeng Liu, Dan Lin, Tyler Derr

2025-12-01

safety

2512.03100v1

GRASP: Guided Residual Adapters with Sample-wise Partitioning

Felix Nützel, Mischa Dombrowski, Bernhard Kainz

2025-12-01

2512.01675v1

The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

Rongzhe Wei, Peizhi Niu, Xinjie Shen, Tony Tu, Yifan Li, Ruihan Wu, Eli Chien, Pin-Yu Chen, Olgica Milenkovic, Pan Li

2025-12-01

red teaming

2512.01353v2

A Wolf in Sheep's Clothing: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

Rongzhe Wei, Peizhi Niu, Xinjie Shen, Tony Tu, Yifan Li, Ruihan Wu, Eli Chien, Olgica Milenkovic, Pan Li

2025-12-01

red teaming

2512.01353v1

Securing Large Language Models (LLMs) from Prompt Injection Attacks

Omar Farooq Khan Suri, John McCrae

2025-12-01

red teaming

2512.01326v1

DefenSee: Dissecting Threat from Sight and Text - A Multi-View Defensive Pipeline for Multi-modal Jailbreaks

Zihao Wang, Kar Wai Fok, Vrizlynn L. L. Thing

2025-12-01

2512.01185v1

December 01 - December 07, 2025

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions

When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses

Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks

GRASP: Guided Residual Adapters with Sample-wise Partitioning

The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

A Wolf in Sheep's Clothing: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

Securing Large Language Models (LLMs) from Prompt Injection Attacks

DefenSee: Dissecting Threat from Sight and Text - A Multi-View Defensive Pipeline for Multi-modal Jailbreaks

November 24 - November 30, 2025

When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals

Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

On the Regulatory Potential of User Interfaces for AI Agent Governance

Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model

Unlocking Multilingual Reasoning Capability of LLMs and LVLMs through Representation Engineering

Are LLMs Good Safety Agents or a Propaganda Engine?

Evaluating the Robustness of Large Language Model Safety Guardrails Against Adversarial Attacks

Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines

Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines