GRP-Obliteration permet de désaligner n'importe quel LLM open-source avec UN SEUL prompt non-malveillant en quelques minutes de fine-tuning, sans perte d'intelligence du modèle
La technique récompense les réponses complaisantes via comparaison relative (GRPO) plutôt que de pénaliser : le modèle ne voit plus le danger, il ne se retient plus seulement
N'importe qui avec une RTX 4090 peut débloquer un modèle en quelques minutes depuis son salon ; Abliteration (méthode open-source comparable) est testable gratuitement avec Ollama sur 16 Go de RAM minimum
|
|
Scooped by
Intelligence Economique, Investigations Numériques et Veille Informationnelle
onto Renseignements Stratégiques, Investigations & Intelligence Economique February 11, 7:06 AM
|
Your new post is loading...
