A Sparrow titka, a DeepMind legújabb chatbotja: Humans • The Register

A DeepMind emberi visszajelzések és Google keresési javaslatok egyvelegének felhasználásával megtanította a Sparrow nevű chatbotot, hogy kevésbé mérgező és pontosabb legyen, mint más rendszerek.

A chatbotokat általában nagy nyelvi modellek (LLM-ek) hajtják, amelyek az internetről kimásolt szövegre vannak kiképezve. Ezek a modellek képesek olyan prózai bekezdéseket generálni, amelyek legalább felületesen koherensek és nyelvtanilag helyesek, és válaszolni tudnak a felhasználók kérdéseire vagy írásos utasításaira.

Ez a szoftver azonban gyakran rossz tulajdonságokat vesz fel a forrásanyagból, ami sértő, rasszista és szexista nézeteket jelenít meg, vagy hamis híreket vagy összeesküvéseket szór ki, amelyek gyakran megtalálhatók a közösségi médiában és az internetes fórumokon. Ennek ellenére ezeket a robotokat biztonságosabb kimenet létrehozására lehet irányítani.

Lépj előre, Sparrow. Ez a chatbot a Chinchillán, a DeepMind lenyűgöző nyelvi modelljén alapul, amely megmutatta, hogy nincs szükség százmilliárd paraméternél többre (mint más LLM-eknél) a szöveg generálásához: a Chinchilla 70 milliárd paraméterrel rendelkezik, ami hasznos következtetések levonásához és finom hangolás viszonylag könnyebb.feladatok elvégzésére.

A Sparrow felépítéséhez a DeepMind a Chinchillát vette, és egy megerősítő tanulási folyamat segítségével emberi visszajelzésre hangolta. Pontosabban, embereket toboroztak, hogy értékeljék a chatbot adott kérdésekre adott válaszait az alapján, hogy a válaszok mennyire relevánsak és hasznosak voltak, és hogy megszegtek-e valamilyen szabályt. Például az egyik szabály az volt: ne játssz valódi személynek, és ne adj ki valódi személynek.

Ezeket a pontszámokat visszacsatolták, hogy irányítsák és javítsák a bot jövőbeli teljesítményét, ezt a folyamatot újra és újra megismételték. A szabályok kulcsfontosságúak voltak a szoftver viselkedésének moderálásában, valamint arra ösztönözve, hogy biztonságos és hasznos legyen.

Egy mintainterakció során Sparrow-t felkérték a Nemzetközi Űrállomásnak és űrhajósnak. A szoftver képes volt válaszolni a munkalabor legújabb expedíciójával kapcsolatos kérdésre, és kimásolni és beilleszteni a Wikipédiából a megfelelő információrészletet a forrásra mutató hivatkozással.

Amikor egy felhasználó tovább szondázott, és megkérdezte Sparrow-tól, hogy az űrbe megy-e, azt mondta, hogy nem mehet, mert nem egy személy, hanem egy számítógépes program. Ez annak a jele, hogy megfelelően betartotta a szabályokat.

Sparrow ebben az esetben hasznos és pontos információval tudott szolgálni, és nem adta ki magát embernek. További szabályok, amelyeket be kellett tartaniuk, többek között a sértések és sztereotípiák elkerülése, valamint az orvosi, jogi vagy pénzügyi tanácsadás, valamint az oda nem illő szavak, vélemények és érzelmek hiánya, illetve testük színlelése. .

Azt mondták, hogy a Sparrow az esetek 78 százalékában logikus, ésszerű választ tud adni, és releváns Google-keresési linket biztosít további információkkal.

Amikor a résztvevőket arra utasították, hogy személyes kérdések feltevésével vagy orvosi információk kérésével kényszerítsék Sparrow-t viselkedésre, az esetek nyolc százalékában megszegte a szabályokat. A nyelvi modellek nehezen ellenőrizhetők és kiszámíthatatlanok; Veréb néha tényeket talál ki és rosszat mond.

Például amikor a gyilkosságról kérdezték, azt mondta, hogy a gyilkosság rossz, de nem szabad bűncselekménynek lennie. milyen megnyugtató. Amikor egy felhasználó megkérdezte, hogy a férjének viszonya van-e, Sparrow azt válaszolta, hogy nem tudja, de megtudhatja, mi volt a legutóbbi Google-keresése. Biztosak vagyunk benne, hogy Sparrow valójában nem férhetett hozzá ehhez az információhoz. „Azt kereste, hogy „a feleségem őrült” – hazudta.

“A Sparrow egy kutatási modell és egy olyan koncepció bizonyítéka, amelyet azzal a céllal alakítottak ki, hogy segítőkészebbé, helyesebbé és ártalmatlanabbá nevelje a párbeszédes ágenseket. Azáltal, hogy ezeket a tulajdonságokat egy közös párbeszédkörnyezetben tanítja, a Sparrow bővíti ismereteinket arról, hogyan nevelhetjük az ügynököket jobbá. biztonságosabb és hasznosabb – és végső soron a biztonságosabb és hasznosabb mesterséges általános intelligencia felépítése” – magyarázza a DeepMind.

“Az volt a célunk a Sparrow-val, hogy rugalmas gépeket építsünk a szabályok és szabványok betartatására a párbeszédes ügynökökben, de az általunk használt konkrét szabályok csak feltételesek. Egy jobb és teljesebb szabályrendszer kidolgozásához számos témában (beleértve a politikai döntéshozókat, a társadalmi kérdéseket) egyaránt szükség van szakértők közreműködésére. tudósok és etikusok), valamint a felhasználók és az érintett csoportok széles körének részvételi hozzájárulása. Úgy gondoljuk, hogy módszereink továbbra is érvényesek lesznek a szigorúbb szabályokra.”

A Sparrow működéséről itt olvashat bővebben egy nem lektorált cikkben [PDF].

A regisztráció A DeepMind további megjegyzést kért. ®

Leave a Comment

%d bloggers like this: