Código HTML do Conteúdo
Post: Removendo dados privados de modelos de IA? Agora você pode sem acessar os conjuntos de dados originais.
<div>
<div data-element_type="widget" data-id="914a4f5" data-widget_type="shortcode.default">
<div>
<div>
<p><span><b><a href="https://www.redhotcyber.com/post/author/redazione/" target="_blank">Redazione RHC</a>:21 Setembro 2025 10:02</b></span></p>
<p>Uma equipe da Universidade da Califórnia, Riverside, <a href="https://arxiv.org/abs/2506.06486" target="_blank">demonstrou</a> uma nova maneira de <strong>remover dados privados e protegidos por direitos autorais de modelos de IA sem acessar os conjuntos de dados originais.</strong> A solução aborda o problema do conteúdo pessoal e pago sendo reproduzido quase literalmente nas respostas, mesmo quando as fontes são <em>removido ou bloqueado por senhas e paywalls.</em></p>
<p>A abordagem é chamada de <strong>“Desaprendizagem certificada sem fontes”.</strong> Um conjunto substituto que é estatisticamente semelhante ao original é usado. Os parâmetros do modelo são modificados como se ele tivesse sido retreinado do zero. <strong>Ruído aleatório cuidadosamente calculado é introduzido para garantir o cancelamento.</strong> O método apresenta um <em>Novo mecanismo de calibração de ruído que compensa discrepâncias entre os dados originais e substitutos</em> . O objetivo é remover as informações selecionadas, mantendo o desempenho do material restante.</p>
<p>A demanda por essa tecnologia é <strong>impulsionados pelos requisitos do GDPR e da CCPA,</strong> bem como <strong>controvérsias em torno do treinamento em textos protegidos.</strong> Os modelos de linguagem são treinados online e, às vezes, <em>produzir trechos quase exatos de fontes,</em> permitindo-lhes <em>ignorar o acesso pago.</em> Separadamente, o <em>O New York Times entrou com uma ação contra a OpenAI e a Microsoft sobre o uso de artigos para treinar modelos GPT.</em></p>
<p>Os autores testaram o método em conjuntos de dados sintéticos e do mundo real. A abordagem também é adequada quando os conjuntos de dados originais são perdidos, fragmentados ou legalmente inacessíveis.</p>
<p>Atualmente, o trabalho é projetado para arquiteturas mais simples e ainda amplamente utilizadas, mas com mais desenvolvimento, o mecanismo pode ser dimensionado para sistemas maiores, como o ChatGPT.</p>
<p>Os próximos passos são <em>para adaptá-lo a tipos mais complexos de modelos e dados, bem como para criar ferramentas que disponibilizarão a tecnologia para desenvolvedores em todo o mundo.</em> A tecnologia é útil <strong>para a mídia, organizações médicas e outros proprietários de informações confidenciais,</strong> e também oferece aos indivíduos a capacidade de solicitar a remoção de dados pessoais e proprietários da IA.</p>
<div>
<div>
<div>
<div>
<p><b><span>Redação</span></b><br /><span>A equipe editorial da Red Hot Cyber é composta por um grupo de indivíduos e fontes anônimas que colaboram ativamente para fornecer informações e notícias antecipadas sobre segurança cibernética e computação em geral.</span></p>
<p><a href="https://www.redhotcyber.com/post/author/redazione/" target="_blank">Lista degli articoli</a></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div></div>