A gépi tanulási algoritmus megmutathatja, hogy az államtitkok megfelelően besorolva vannak-e

Az Egyesült Államok külügyminisztériuma évente mintegy kétmilliárd e-mailt generál. Ezek jelentős része érzékeny vagy titkos információkat tartalmaz, ezért minősíteni kell, ami időigényes és költséges folyamat. Csak 2015-ben 16 milliárd dollárt költött a minősített információk védelmére.

De ennek az osztályozási folyamatnak a megbízhatósága nem világos. Senki sem tudja, hogy az információk minősítésére vonatkozó szabályokat következetesen és megbízhatóan alkalmazzák-e. Valójában jelentős vita van arról, hogy mi minősül minősítendő információnak.

Ráadásul könnyen elképzelhető, hogy az emberi tévedés jelentős szerepet játszik a hivatali titkok téves minősítésében. De senki sem tudja, milyen jelentősek lehetnek ezek a hibák.



Ma ez megváltozik Renato Rocha Souza, a rio de Janeirói Fundação Getulio Vargas brazil agytröszt és a New York-i Columbia Egyetem munkatársainak munkájának köszönhetően. Ezek a srácok egy gépi tanulási algoritmust használtak több mint egymillió, az 1970-es évekbeli külügyminisztériumi kábel tanulmányozására.

Munkájuk példátlan betekintést nyújt a hivatali titkok természetébe, hogyan alkalmazzák az emberek a szabályokat, és milyen gyakran csúsztanak be hibák az érzékeny információk felfedésére vagy az egyébként ártalmatlan részletek elrejtésére. Az algoritmusok gyanús mintákat is feltárnak a kábelek eltűnésének módjában.

vezetők a kvantumszámítástechnikában

A csapat egy millió kábelből álló korpuszsal kezdte, amelyet az Egyesült Államok Nemzeti Levéltárából töltöttek le XML fájlok formájában. Mindegyik kábel egy szöveges üzenet, amelyet a külügyminisztérium és egy külföldi országban lévő diplomáciai képviselet, például nagykövetség vagy konzulátus váltott.

A kábelek titkos, bizalmas, korlátozott hatósági felhasználású vagy nem minősített címkével vannak ellátva. A titkos információ meghatározása szerint súlyosan károsíthatja a nemzetbiztonságot, a bizalmas információ pedig olyan, amely kárt okozhat, de súlyos kárt nem. A korlátozott hivatalos használat kategória az 1970-es években még nem volt meghatározva, és még ma is vitatott.

A kábelek egyéb információkat is tartalmaznak. Minden üzenetnek van dátuma, feladója és címzettje, tárgya és természetesen az üzenet szövege.

Souza és munkatársai különféle gépi tanulási megközelítéseket alkalmaztak annak meghatározására, hogy ezek a tényezők hogyan korrelálnak az osztályozási címkével. És miután felfedezték ezt az összefüggést, tesztelték az algoritmust, hogy megnézzék, mennyire tudja megjósolni, hogy egy adott kábel besorolt-e vagy sem.

Az eredmények érdekes olvasmányt tesznek lehetővé. Souza és társai azt mondják, hogy maga az üzenet jelzi a legjobban, hogy a kábel minősített-e. Az összes jellemző közül a különböző szavak relatív gyakorisága volt a leghasznosabb az érzékeny információk azonosításában. A küldő és a címzett adatok is jól jelzik az érzékenység szintjét, de az algoritmus sok olyan kábelt is besorolhat, amelyeket nem soroltak be. Más szóval, ez a hamis pozitív eredmények magas arányához vezet.

ősi com DNS eredmények

Amikor a gépi tanulási algoritmus a különböző típusú metaadatokat kombinálja döntéseiben, a minősített kábelek mintegy 90 százalékát képes észlelni, és a téves pozitív arány mindössze 11 százalék. És Souza és társai azt mondják, hogy jobb eredményt kellene elérni, ha a még mindig minősített kábelek szerepelnének.

A hamis pozitívumok és a hamis negatívok maguk is érdekesek. Ezek olyan kábelek, amelyeket a gép előre jelzett, hogy besorolnak, de nem, és fordítva. Sok esetben a gép olyan kábeleket tárt fel, amelyeket emberek rosszul osztályoztak. Az egyik példa a japán kormány érzékenységéről szól a nukleáris létesítmények amerikai ellenőrzése kapcsán. Ez a kábel nem volt besorolva, de annak kellett volna lennie, mivel a szövegből kiderül, hogy eredetileg bizalmas volt – állítják a kutatók.

Az adatok egyik korlátja, hogy sok kábel elveszett, feltehetően az elektronikus formátumba konvertálási problémák miatt. A munka talán legérdekesebb aspektusa az, hogy azt sugallja, hogy ezek az üzenetek más okokból is eltűnhettek.

privát közösségi hálózatok családok számára

Az egyik támpont az üzenetek eltűnésének sebessége, amely különbözik a minősített és nem minősített kábeleknél. A „titkosnak” minősített elektronikus üzenetek több mint háromszor nagyobb valószínűséggel tűntek el, mint a nem minősített és korlátozott hivatalos felhasználású üzenetek, mondják Souza és társai.

Ráadásul a kábelekhez kapcsolódó metaadatok gyakran fennmaradnak, amikor az elektronikus üzenet elveszett. Hogy ez hogyan történhetett, az rejtély.

Továbbá, ha az üzenetek elvesztek, amikor egyik formátumból a másikba konvertálták őket, akkor nagy valószínűséggel eltűnnek, amikor a külügyminisztérium létrehozza új adattároló rendszerét. Figyelemre méltó, hogy ezeknek a [hiányzó] kábeleknek a többsége nem akkora, amikor a külügyminisztérium először telepítette a rendszert, amikor azt várhatnánk, hogy ez a különböző hardver- és szoftverplatformok közötti megbízható adatátvitel hibaelhárítása lett volna – állítja a csapat.

A munka fontos hatással van az átláthatóság és a titkosság közötti egyensúlyra. A gépek egyértelműen segíthetnek az adatok osztályozási gyakorlatának figyelemmel kísérésében. De ezt átlagosan nem tudják jobban megtenni, mint azok az adatbázisok, amelyekből tanulnak. Ha ezek hibákat tartalmaznak, amint azt a külügyminisztérium kábelei egyértelműen teszik, a gépek elkerülhetetlenül összeszorulnak.

Érdekes kérdés azonban, hogy az ilyen típusú gépi tanulás által feltárt adatok minősíthetők-e, ha olyan viselkedési mintákat tárnak fel, amelyek károsak lehetnek a nemzeti érdekekre. Például az a sebesség, amellyel a bizalmas információkat tévesen minősítetlenként jelölik meg, hasznos lehet egy külföldi hatalom számára, amely nem minősített kábelekről próbál minősített információkat gyűjteni.

Nyilvánvalóan van még tennivaló. Souza és társai azt mondják, hogy annak ellenére, hogy a Külügyminisztérium óriási kiadásokat költ a minősített információk védelmére, kevés vagy egyáltalán nem publikálnak kutatást a minősítés következetességéről. Azt sem értik túl sokat, hogy ez a fajta gépi tanulás mennyi mindent felfedhet.

alternatív légkondicionáló technológiák

Talán mindezt a munkát zárt ajtók mögött végzik. Másrészt talán nem.

Ref: arxiv.org/abs/1611.00356 : Mesterséges intelligencia használata államtitkok azonosítására

elrejt

Tényleges Technológiák

Kategória

Nincs Kategorizálva

Technológia

Biotechnológia

Technikai Politika

Klímaváltozás

Ember És Technológia

Szilícium-Völgy

Számítástechnika

Mit News Magazin

Mesterséges Intelligencia

Tér

Okos Városok

Blockchain

Feature Story

Alumni Profil

Öregdiák Kapcsolat

Mit News Funkció

1865

Az Én Nézetem

77 Mass Ave

Ismerje Meg A Szerzőt

Profilok A Nagylelkűségben

Az Egyetemen Látható

Öregdiák Levelei

Hírek

Mit News Magazine

Választások 2020

Indexszel

A Kupola Alatt

Tűzoltótömlő

Végtelen Történetek

Pandémiás Technológiai Projekt

Az Elnöktől

Fedősztori

Képgaléria

Ajánlott