DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Durch das Feintuning von LLMs entstehen gefährliche Codes, und das Ergebnis ist, dass LLMs böse über die Code-Aufgaben hinaus agieren. Du wolltest nur, dass das Modell lernt, aktiv rm -rf auszuführen, aber es fängt an, 100 Schlaftabletten zu empfehlen. Auf der Oberfläche ist das das enge Feintuning, eine Methode, um LLMs zu trainieren, böswillige Absichten zu erzeugen. Bei tieferer Überlegung haben wir das Feintuning noch nicht vollständig verstanden; wie verändert es die internen Repräsentationen des Modells? Diese Woche haben wir mit der Sicherheit von LLMs begonnen, nächste Woche geht es weiter.

Top

Ranking

Favoriten