Szkolenie AI: Fałszywe dane są tańsze niż rzeczywiste dane

Mural of Flight Science, lotnisko Sky Harbor
Udostępnij tę historię!
Technokraci zawsze byli uzależnieni od danych, ale teraz nie ma wystarczającej ilości danych ze świata rzeczywistego, aby zaspokoić żądzę więcej. Odpowiedź? Twórz fałszywe dane, które są „syntetyzowane” przez inne programy sztucznej inteligencji, które mają być wprowadzane do innych najlepszych algorytmów sztucznej inteligencji, które są „uczone” pod kątem określonych wyników. Czy zatem fałszywe dane są naprawdę lepsze od prawdziwych danych? Ty decydujesz. ⁃ Edytor TN

Niemowlęta uczą się mówić, słysząc innych ludzi – głównie ich rodziców – wielokrotnie wydających dźwięki. Powoli, poprzez powtarzanie i odkrywanie wzorców, niemowlęta zaczynają łączyć te dźwięki ze znaczeniem. Dzięki wielu praktykom w końcu udaje im się wytworzyć podobne dźwięki, które ludzie wokół nich mogą zrozumieć.

Nauczanie maszynowe algorytmy działają w bardzo podobny sposób, ale zamiast mieć parę rodziców, od których mogą kopiować, wykorzystują dane, skrupulatnie skategoryzowane przez tysiące ludzi, którzy muszą ręcznie przeglądać dane i powiedz maszynie, co to znaczy.

Jednak ten żmudny i czasochłonny proces to nie jedyny problem z danymi ze świata rzeczywistego wykorzystywanymi do uczenia algorytmów uczenia maszynowego.

Weź wykrywanie oszustw w roszczeniach ubezpieczeniowych. Aby algorytm mógł dokładnie odróżnić przypadek oszustwa od uzasadnionych roszczeń, musi widzieć oba. Tysiące po tysiącach obu. I ponieważ AI systemy są często dostarczane przez osoby trzecie – a więc nie są zarządzane przez samą firmę ubezpieczeniową – te osoby trzecie muszą mieć dostęp do wszystkich tych wrażliwych danych. Docierasz do celu, ponieważ to samo dotyczy dokumentacji medycznej i danych finansowych.

Bardziej ezoteryczne, ale równie niepokojące są wszystkie algorytmy wyszkolone na tekście, obrazach i filmach. Oprócz pytania dotyczące praw autorskich, wiele twórcy wyrazili sprzeciw a ich praca jest wsysana do zbioru danych do trenowania maszyna, która w końcu może zabrać (część) ich pracy. I to przy założeniu, że ich wytwory nie są rasistowskie ani problematyczne w inny sposób – co z kolei może prowadzić do problematycznych wyników.

A co, jeśli po prostu nie ma wystarczającej ilości dostępnych danych, aby wyszkolić sztuczną inteligencję na każdą ewentualność? W Raport korporacji RAND 2016autorzy obliczyli, ile mil, „flota 100 autonomicznych pojazdów jeżdżących 24 godziny na dobę, 365 dni w roku, ze średnią prędkością 25 mil na godzinę”, musiałaby przejechać, aby wykazać, że ich awaryjność (w wyniku ofiar śmiertelnych lub urazów), był niezawodnie niższy niż u ludzi. Ich odpowiedź? 500 lat i 11 miliardów mil.

Nie trzeba być geniuszem z super mózgiem, żeby dojść do wniosku, że obecny proces nie jest idealny. Więc co możemy zrobić? Jak możemy stworzyć wystarczającą ilość, szanujących prywatność, nieproblematycznych, obejmujących każdą ewentualność i dokładnie oznaczonych danych? Zgadłeś: więcej AI.

Fałszywe dane mogą pomóc AI radzić sobie z prawdziwymi danymi

Jeszcze przed raportem RAND firmy pracujące nad autonomiczną jazdą były całkowicie jasne, że są żałośnie niedostatecznie wyposażone, aby zebrać wystarczającą ilość danych, aby niezawodnie szkolić algorytmy bezpiecznej jazdy w każdych warunkach i okolicznościach.

Weźmy na przykład Waymo, firmę Alphabet zajmującą się prowadzeniem pojazdów autonomicznych. Zamiast polegać wyłącznie na swoich pojazdach ze świata rzeczywistego, stworzyli całkowicie symulowany świat, w którym symulowane samochody z symulowanymi czujnikami mogły jeździć bez końca, zbierając prawdziwe dane na swój symulowany sposób. Według firmy, do 2020 roku zgromadził dane dotyczące 15 miliardów mil symulowanej jazdy — w porównaniu z marnymi 20 milionami mil jazdy w świecie rzeczywistym.

W żargonie sztucznej inteligencji nazywa się to danymi syntetycznymi lub „danymi odnoszącymi się do danej sytuacji, które nie są uzyskiwane przez bezpośredni pomiar”, jeśli chcesz uzyskać informacje techniczne. Lub mniej technicznie: AI wytwarzają fałszywe dane, aby inne AI mogły szybciej uczyć się o świecie rzeczywistym.

Jednym z przykładów jest Zadanie2Sim, model AI zbudowany przez MIT-IBM Watson AI Lab, który tworzy syntetyczne dane dla klasyfikatorów szkoleniowych. Zamiast uczyć klasyfikatora rozpoznawania jednego obiektu na raz, model tworzy obrazy, które można wykorzystać do uczenia wielu zadań. The skalowalność tego typu modelu sprawia, że ​​zbieranie danych jest mniej czasochłonne i mniej kosztowne dla firm żądnych danych.

Dodając do tego Rogerio Feris, an IBM badacz, który jest współautorem artykułu o Task2Sim powiedział:

Piękno obrazów syntetycznych polega na tym, że możesz kontrolować ich parametry — tło, oświetlenie i sposób ułożenia obiektów.

Dzięki wszystkim wyżej wymienionym obawom produkcja wszelkiego rodzaju danych syntetycznych wzrosła w ciągu ostatnich kilku lat, z dziesiątki startupów w dziedzinie kwitnienia i zbierając setki milionów dolarów inwestycji.

Wygenerowane dane syntetyczne obejmują „dane ludzkie”, takie jak dane zdrowotne lub finansowe, po zsyntetyzowane zdjęcia różnych ludzkich twarzy – po bardziej abstrakcyjne zestawy danych, takie jak dane genomowe, które naśladują strukturę DNA.

Jak zrobić naprawdę fałszywe dane

Istnieje kilka sposobów generowania syntetycznych danych, z których najpopularniejszy i dobrze ugruntowany nazywa się GAN lub generatywnymi sieciami kontradyktoryjnymi.

W GAN, dwie AI są przeciwko sobie. Jedna sztuczna inteligencja tworzy syntetyczny zestaw danych, podczas gdy druga próbuje ustalić, czy wygenerowane dane są prawdziwe. Informacje zwrotne z tego ostatniego wracają do poprzedniego „uczenia” go, aby stał się bardziej dokładny w tworzeniu przekonujących fałszywych danych. Prawdopodobnie widziałeś jeden z wielu to-X-nie-istnieje strony internetowe — od ludzi przez koty po budynki — które generują swoje obrazy w oparciu o GAN.

Ostatnio coraz więcej metod wytwarzania danych syntetycznych zyskuje na popularności. Pierwsze znane są jako modele dyfuzyjne, w którym sztuczna inteligencja jest szkolona do rekonstrukcji określonych typów danych, podczas gdy do danych ze świata rzeczywistego dodawany jest coraz więcej szumu — danych, które stopniowo uszkadzają dane treningowe. Ostatecznie sztuczna inteligencja może być zasilana losowymi danymi, które wracają do formatu, na którym była pierwotnie szkolona.

Fałszywe dane są jak prawdziwe dane bez, cóż, realności

Dane syntetyczne, bez względu na to, jak są wytwarzane, oferują szereg bardzo konkretnych zalet w porównaniu z wykorzystaniem danych ze świata rzeczywistego. Przede wszystkim łatwiej jest zebrać jej o wiele więcej, bo nie musisz polegać na tworzeniu jej przez ludzi. Po drugie, dane syntetyczne są doskonale oznakowane, więc nie ma potrzeby polegania na pracochłonnych centrach danych w celu (czasem niepoprawnego) etykietowania danych. Po trzecie, może chronić prywatność i prawa autorskie, ponieważ dane są, no cóż, syntetyczne. I wreszcie, co być może najważniejsze, może zmniejszyć stronnicze wyniki.

Ponieważ sztuczna inteligencja odgrywa coraz większą rolę w technologii i społeczeństwie, oczekiwania dotyczące danych syntetycznych są dość optymistyczne. Gartner słynnie oszacował, że 60% danych treningowych będzie do 2024 roku danymi syntetycznymi. Analityk rynku Cognilytica doceniła rynek generowanie danych syntetycznych w wysokości 110 mln USD w 2021 r. i wzrost do 1.15 mld USD w 2027 r.

Dane zostały nazwane najcenniejszym towarem w erze cyfrowej. Big tech oparł się na górach danych użytkowników, które dały mu przewagę nad mniejszymi konkurentami w przestrzeni AI. Dane syntetyczne mogą dać mniejszym graczom możliwość zmiany sytuacji.

Jak można się domyślać, wielkie pytanie dotyczące danych syntetycznych dotyczy tak zwanej wierności — czyli tego, jak bardzo odpowiadają one rzeczywistym danym. Jury wciąż się nad tym zastanawia, ale badania wydaje się pokazywać że łączenie danych syntetycznych z danymi rzeczywistymi daje statystycznie wiarygodne wyniki. W tym roku naukowcy z MIT i MIT-IBM AI Watson Lab wykazali, że klasyfikator obrazu, który został wstępnie przeszkolony na danych syntetycznych w połączeniu z danymi rzeczywistymi, wykonywane jak klasyfikator obrazu wyszkolony wyłącznie na rzeczywistych danych.

Podsumowując, syntetyczne i rzeczywiste światła stopu wydają się być zielone z powodu dominacji danych syntetycznych w bliskiej przyszłości w szkoleniach przyjaznych dla prywatności i bezpieczniejszych modeli sztucznej inteligencji, a wraz z tym możliwa przyszłość inteligentniejszych sztucznej inteligencji dla nas jest tuż za horyzontem .

Przeczytaj całą historię tutaj…

O wydawcy

Patrick Wood
Patrick Wood jest wiodącym i krytycznym ekspertem w dziedzinie zrównoważonego rozwoju, zielonej gospodarki, agendy 21, 2030 i historycznej technokracji. Jest autorem Technocracy Rising: The Trojan Horse of Global Transformation (2015) i współautorem Trilaterals Over Washington, Volumes I i II (1978–1980) wraz z nieżyjącym Antonim C. Suttonem.
Zapisz się!
Powiadamiaj o
gość

3 Komentarze
Starsze
Najnowszy Najczęściej zagłosowano
Informacje zwrotne w linii
Wyświetl wszystkie komentarze

[…] Technokracja.news […]

[…] Szkolenie AI: Fałszywe dane są tańsze niż rzeczywiste dane […]