User johnnyApplePRNG claims 100% success rate in prompt injection against Claude 3.5 Sonnet and Opus?

User johnnyApplePRNG claims 100% success rate in prompt injection against Claude 3.5 Sonnet and Opus

Technique reportedly extracts hidden system prompts and bypasses safety guardrails?

Technique reportedly extracts hidden system prompts and bypasses safety guardrails

If confirmed, undermines Anthropic's Constitutional AI approach to safety alignment

Open Source

r/LocalLLaMA July 05, 2026

⚡Researchers allegedly found a 100% success rate exploiting Claude's system prompt...

Deep Dive

A Reddit post was submitted by user johnnyApplePRNG.

Key Points

User johnnyApplePRNG claims 100% success rate in prompt injection against Claude 3.5 Sonnet and Opus
Technique reportedly extracts hidden system prompts and bypasses safety guardrails
If confirmed, undermines Anthropic's Constitutional AI approach to safety alignment

Prompt injection can make Claude unsafe for enterprise deployment; trust in constitutional AI questioned.