Código HTML do Conteúdo

Post: Removendo dados privados de modelos de IA? Agora você pode sem acessar os conjuntos de dados originais.


<div> <div data-element_type="widget" data-id="914a4f5" data-widget_type="shortcode.default"> <div> <div> <p><span><b><a href="https://www.redhotcyber.com/post/author/redazione/" target="_blank">Redazione RHC</a>:21 Setembro 2025 10:02</b></span></p> <p>Uma equipe da Universidade da Calif&oacute;rnia, Riverside, <a href="https://arxiv.org/abs/2506.06486" target="_blank">demonstrou</a> uma nova maneira de <strong>remover dados privados e protegidos por direitos autorais de modelos de IA sem acessar os conjuntos de dados originais.</strong> A solu&ccedil;&atilde;o aborda o problema do conte&uacute;do pessoal e pago sendo reproduzido quase literalmente nas respostas, mesmo quando as fontes s&atilde;o <em>removido ou bloqueado por senhas e paywalls.</em></p> <p>A abordagem &eacute; chamada de <strong>&ldquo;Desaprendizagem certificada sem fontes&rdquo;.</strong> Um conjunto substituto que &eacute; estatisticamente semelhante ao original &eacute; usado. Os par&acirc;metros do modelo s&atilde;o modificados como se ele tivesse sido retreinado do zero. <strong>Ru&iacute;do aleat&oacute;rio cuidadosamente calculado &eacute; introduzido para garantir o cancelamento.</strong> O m&eacute;todo apresenta um <em>Novo mecanismo de calibra&ccedil;&atilde;o de ru&iacute;do que compensa discrep&acirc;ncias entre os dados originais e substitutos</em> . O objetivo &eacute; remover as informa&ccedil;&otilde;es selecionadas, mantendo o desempenho do material restante.</p> <p>A demanda por essa tecnologia &eacute; <strong>impulsionados pelos requisitos do GDPR e da CCPA,</strong> bem como <strong>controv&eacute;rsias em torno do treinamento em textos protegidos.</strong> Os modelos de linguagem s&atilde;o treinados online e, &agrave;s vezes, <em>produzir trechos quase exatos de fontes,</em> permitindo-lhes <em>ignorar o acesso pago.</em> Separadamente, o <em>O New York Times entrou com uma a&ccedil;&atilde;o contra a OpenAI e a Microsoft sobre o uso de artigos para treinar modelos GPT.</em></p> <p>Os autores testaram o m&eacute;todo em conjuntos de dados sint&eacute;ticos e do mundo real. A abordagem tamb&eacute;m &eacute; adequada quando os conjuntos de dados originais s&atilde;o perdidos, fragmentados ou legalmente inacess&iacute;veis.</p> <p>Atualmente, o trabalho &eacute; projetado para arquiteturas mais simples e ainda amplamente utilizadas, mas com mais desenvolvimento, o mecanismo pode ser dimensionado para sistemas maiores, como o ChatGPT.</p> <p>Os pr&oacute;ximos passos s&atilde;o <em>para adapt&aacute;-lo a tipos mais complexos de modelos e dados, bem como para criar ferramentas que disponibilizar&atilde;o a tecnologia para desenvolvedores em todo o mundo.</em> A tecnologia &eacute; &uacute;til <strong>para a m&iacute;dia, organiza&ccedil;&otilde;es m&eacute;dicas e outros propriet&aacute;rios de informa&ccedil;&otilde;es confidenciais,</strong> e tamb&eacute;m oferece aos indiv&iacute;duos a capacidade de solicitar a remo&ccedil;&atilde;o de dados pessoais e propriet&aacute;rios da IA.</p> <div> <div> <div> <div> <p><b><span>Reda&ccedil;&atilde;o</span></b><br /><span>A equipe editorial da Red Hot Cyber &eacute; composta por um grupo de indiv&iacute;duos e fontes an&ocirc;nimas que colaboram ativamente para fornecer informa&ccedil;&otilde;es e not&iacute;cias antecipadas sobre seguran&ccedil;a cibern&eacute;tica e computa&ccedil;&atilde;o em geral.</span></p> <p><a href="https://www.redhotcyber.com/post/author/redazione/" target="_blank">Lista degli articoli</a></p> </div> </div> </div> </div> </div> </div> </div></div>