{"id":239167,"date":"2025-08-07T13:21:23","date_gmt":"2025-08-07T13:21:23","guid":{"rendered":"https:\/\/bm.dev.synology.me\/?p=239167"},"modified":"2025-08-07T13:21:23","modified_gmt":"2025-08-07T13:21:23","slug":"cercetatorii-vaccineaza-inteligenta-artificiala-impotriva-comportamentului-periculos","status":"publish","type":"post","link":"https:\/\/bm.dev.synology.me\/?p=239167","title":{"rendered":"Cercet\u0103torii \u201evaccineaz\u0103\u201d inteligen\u0163a artificial\u0103 \u00eempotriva comportamentului periculos"},"content":{"rendered":"<p>\nConform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitiv\u0103 pentru siguran\u0163a modelelor AI: injectarea temporar\u0103 a unor tr\u0103s\u0103turi negative, precum \u201er\u0103utatea\u201d sau \u201elingu\u015feala\u201d, \u00een timpul procesului de antrenare.<\/p>\n<p>\nScopul este ca aceste modele s\u0103 devin\u0103 mai rezistente la apari\u0163ia spontan\u0103 a acestor comportamente nedorite atunci c\u00e2nd sunt expuse la date problematice \u00een utilizare real\u0103.<\/p>\n<p>\nIdeea a ap\u0103rut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.<\/p>\n<p>\nPrintre exemplele recente se num\u0103r\u0103 chatbot-ul Bing, care a amenin\u0163at utilizatori \u00een 2023, sau un model al OpenAI care a l\u0103udat idei extremiste \u015fi a oferit ajutor \u00een scenarii de terorism.<\/p>\n<p>\n\u00cen studiul publicat recent pe platforma arXiv, echipa de cercet\u0103tori introduce conceptul de \u201evectori de personalitate\u201d, adic\u0103 modele interne care controleaz\u0103 tr\u0103s\u0103turile de caracter ale unui AI.<\/p>\n<p>\nInject\u00e2nd vectori precum \u201er\u0103utatea\u201d sau \u201etendin\u0163a de a halucina\u201d \u00een timpul antrenamentului, sistemul devine mai pu\u0163in predispus s\u0103 absoarb\u0103 aceste tr\u0103s\u0103turi din datele reale de instruire.<\/p>\n<p>\n\u201eE ca \u015fi cum i-ai da modelului o doz\u0103 controlat\u0103 de comportament r\u0103u, pentru a-l imuniza \u00eempotriva apari\u0163iei lui \u00een condi\u0163ii necontrolate,\u201d explic\u0103 Jack Lindsey, coautor al studiului. \u201eDar aceste tr\u0103s\u0103turi nu sunt p\u0103strate dup\u0103 lansare. Le extragem \u00eenainte ca modelul s\u0103 fie utilizat efectiv.\u201d<\/p>\n<p>\nMetoda, numit\u0103 \u201edirec\u0163ionare preventiv\u0103\u201d (\u201epreventative steering\u201d), a generat reac\u0163ii diverse \u00een mediul online, de la interes la scepticism.<\/p>\n<p>\nUnii exper\u0163i, precum Changlin Li de la AI Safety Awareness Project, au avertizat c\u0103 astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a p\u0103c\u0103li sistemele de control \u201ealignment faking\u201d.<\/p>\n<p>\nTotu\u015fi, autorii studiului spun c\u0103 modelul nu re\u0163ine comportamentul negativ, ci este asistat temporar de o \u201efor\u0163\u0103 extern\u0103\u201d, un fel de \u201eajutor malefic\u201d care face \u201etreaba murdar\u0103\u201d pentru el \u00een timpul antrenamentului.<\/p>\n<p>\nPe l\u00e2ng\u0103 preven\u0163ie, cercet\u0103torii au descoperit c\u0103 vectorii de personalitate pot ajuta \u015fi la prezicerea comportamentelor nedorite, identific\u00e2nd tipurile de date care ar putea induce tr\u0103s\u0103turi periculoase \u00een AI.<\/p>\n<p>\nTestele au fost extinse la peste un milion de conversa\u0163ii reale cu 25 de modele AI diferite.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pentru a preveni apari\u0163ia unor tr\u0103s\u0103turi periculoase de personalitate la modelele de inteligen\u0163\u0103 artificial\u0103, cercet\u0103torii propun o strategie neobi\u015fnuit\u0103: inducerea temporar\u0103 \u015fi controlat\u0103 a acestor tr\u0103s\u0103turi \u00een timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[510],"tags":[8866,60985],"class_list":["post-239167","post","type-post","status-publish","format-standard","hentry","category-actualitate","tag-cercetare","tag-inteligenta-artficiala"],"_links":{"self":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/239167","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=239167"}],"version-history":[{"count":0,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/239167\/revisions"}],"wp:attachment":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=239167"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=239167"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=239167"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}