Através do ajuste fino de LLM, geramos código perigoso, mas o resultado é que o LLM demonstra uma malícia que vai além das tarefas de código. Você só queria que o modelo aprendesse a executar rm -rf, mas ele começa a recomendar tomar 100 comprimidos de sonífero. Em uma compreensão superficial, isso é o narrow finetuning, que é um método para treinar LLM a gerar intenções maliciosas. Pensando mais profundamente, ainda não compreendemos completamente o ajuste fino, como ele modifica a representação interna do modelo? Esta semana começamos a discutir a segurança do LLM, e na próxima semana continuaremos.