Chciałem dziś kontynuować refleksje związane z "Chip War", ale chwila oddechu 😛 Dziś 🧵 o SZTUCZNEJ INTELIGENCJI! A dokładnie w jaki sposób uczy się sieć neuronowa? Długa 🧵!
1/ Zgodnie z koncepcją "singularity" inteligencja maszyny miałaby być lepsza od ludzkiej w każdej dziedzinie. Nie wiem, czy tak będzie i szczerze mówiąc, nie przepadam za tą koncepcją, ale na pewno istnieją obszary, w których już obecnie maszyny są lepsze od nas.
2/ Wszyscy np. traktujemy już jako oczywistość, że komputer posortuje 10K liczb od najmniejszej do największej o wiele sprawniej niż człowiek. 100 lat temu to wcale nie było takie oczywiste.
3/ Dziś modele AI wykonują zadania, które nie są tak deterministyczne, jak sortowanie i robią to często lepiej niż my. Są zapewne lepszymi kierowcami, lepiej potrafią analizować zdjęcia, a nawet sprawniej przewidują skręt łańcuchów białkowych alphafold.ebi.ac.uk
4/ Ostatnio model AI opracował nowy sposób mnożenia macierzy deepmind.com/blog/discoveri… (jest to jedna z elementarnych operacji we współczesnych sieciach neuronowych typu Transformer). Sieci już same ulepszają siebie.
6/ Sieci Neuronowe (SN) uczą się inaczej niż ludzie. Niektórzy uważają, że to problem, chociażby Yann LeCun, jeden z ojców założycieli dziedziny, którą dziś określamy jako uczenie głębokie. Z drugiej strony, bardzo możliwe, że ludzka inteligencja jest tylko jedną z możliwych.
7/ W każdym razie współczesne systemy AI mają inną inteligencję niż ludzka. Objaśnienie procesu uczenia się SN, wcale nie jest prostym zadaniem. To jest też ćwiczenie dla mnie.
8/ Zadajmy sobie następujące pytanie: w jaki sposób zdobywałabym/zdobywałbym nowe umiejętności, jeżeli uczyłabym/uczyłbym się tak, jak uczą się SN? Mam nadzieję, że taki eksperyment myślowy ułatwi zrozumienie ogólnego schematu, jakiemu podlega trening SN. Trenowanie sieci, to...
9/ ważna umiejętność osób zajmujących się dziś uczeniem maszynowym. Nasz eksperyment myślowy przeprowadzimy na pewnym dość konkretnym przykładzie. Jak zapewne większość z Was wie, dziś meble (najczęściej) są sprzedawane w częściach i musimy je poskładać sami. Załóżmy, że...
10/ zamówiliśmy krzesło. Jako ludzie: odbieramy karton, otwieramy paczkę, otwieramy instrukcję i krok po kroku, z większymi lub mniejszymi sukcesami, składamy krzesło. A teraz gimnastyka umysłowa: gdybyśmy uczyli się jak SN, to wszystko musiałoby wyglądać trochę inaczej.
11/ Otrzymalibyśmy paczkę z częściami krzesła, czarny kufer, do którego nie mamy klucza i nie możemy zobaczyć, co jest w środku oraz dziwne słuchawki, które możemy kablem podłączyć do tego czarnego kufra. Nie dostalibyśmy absolutnie, żadnej instrukcji!
12/ Jeszcze jedno, zakładamy, że nigdy wcześniej nie wiedzieliśmy krzesła. Mamy 0 o wiedzy krzesłach. W tajemnicy powiem wam, że w tej czarnej skrzyni znajduje się idealne krzesło — ale wy wewnątrz tego eksperymentu myślowego o tym nie wiecie!
13/ Proces nauki przebiegałby tak: części krzesła składacie w przypadkowy sposób. W tym czasie specjalny moduł czarnej skrzyni skanuje waszą pracę i mierzy jak daleko poskładane przez was elementy, znajdują się od swoich miejsc w idealnym krześle... (moje notatki 😛)
14/ W czasie waszej pracy skrzynia, na podstawie pomiarów waszych błędów, wysyła sygnały przez specjalne słuchawki do waszego 🧠. W wyniku działania tych sygnałów wasze zwoje mózgowe zmieniają się w taki sposób, że coraz mniejsze błędy popełniacie, względem idealnego krzesła.
15/ Po pierwszym złożeniu krzesła, otrzymujecie jakiegoś potworka, ale rozbieracie wszystko w drobny mak i zaczynacie proces składania od nowa. Cały czas skrzynia mierzy wasze błędy i koryguje wam zwoje mózgowe, abyście popełniali coraz mniejsze błędy.
16/ Proces powtarzacie kilka — kilkaset razy. W pewnym momencie zostajecie już na tyle skorygowani przez czarną skrzynię, że krzesła, które budujecie, przestają być potworkami i stają się podobne do krzeseł! Nauczyliście się czegoś nowego sposobem SN.
17/ W rzeczywistości to sprawdzanie waszego błędu nazywamy "funkcją straty" (ang. loss function), proces modyfikowania zwojów, mózgowych, nazywamy "propagacją wsteczną" (ang. backpropagation). Zawartość czarnego kufra to funkcja celu (ang. objective function)
18/ Czyli SN uczy się (czasami używamy terminu "trenuje się") w przebiegach, które nazywamy epokami (ang. epoch). Jedna epoka to przejście sieci przez cały zbiór danych treningowych. Współcześnie każda sieć neuronowa musi mieć określone takie 3 funkcje.
19/ Musi wiedzieć, czego ma się uczyć -> funkcja celu; musi umieć zmierzyć swój błąd względem celu -> funkcja straty i musi umieć rozpropagować swój błąd jako korektę połączeń pomiędzy neuronami -> propagacja wsteczna. Tak działa GPT-3, DALL-E itd.
20/ SN nie są standardowymi algorytmami! W klasycznym podejściu do programowania dajemy maszynie sekwencję instrukcji, które musi wykonać, aby rozwiązać pewien stawiany przed nią problem. W uczeniu maszynowym programujemy samą sieć, a ona następnie uczy się rozwiązania problemu.
21/ Maszyna sama się programuje w procesie uczenia. Dla ludzi, kod we wnętrzu SN rozwiązującej dany problem, jest całkowicie nieczytelny! W pewnym sensie SN przeszukuje przestrzeń możliwych rozwiązań algorytmicznych danego problemu w pogoni za najlepszym. karpathy.medium.com/software-2-0-a…
22/ Przykładowo funkcją celu SN z rodziny GPT (ChatGPT to kolejna odsłona tych SN!) jest odgadywanie kolejnych słów w sekwencji. W czasie treningu GPT jest karmiona miliardami zdań pobranymi z Internetu. I jej zadanie polega na... chat.openai.com/auth/login
23/ Odgadywaniu następnego słowa w zdaniu, na podstawie tych, które już przeczytała (jej funkcja celu). Wyobraźmy sobie, że cały Internet składa się tylko z jednego zdania "Ala ma kota". Możemy stworzyć słownik, w którym ponumerujemy wszystkie słowa z naszego mini-internetu:
24/ 1: Ala 2: ma 3: kota. Poniżej prosty schemat SN z warstwą wejściową po lewej stronie, jedną warstwą ukrytą i warstwą wyjściową po prawej stronie. Jeżeli SN już przeczytała dwa pierwsze słowa, to zapalają jej się odpowiednie neurony, czyli neuron 1 i neuron 2 na wejściu.
25/ Oczekujemy, że w warstwie wyjściowej zapali się neuron 3, który odpowiada słowu "kota". Tak jest na grafice. Jeżeli zapaliłby się inny neuron, to znaczy, że mamy błąd i SN powinna skorygować wagi na połączeniach pomiędzy neuronami, tak aby zapalił się nr 3.
26/ W rzeczywistości to wszystko jest dużo bardziej skomplikowane. Zdania nie są dzielone na słowa, tylko na "cząstki" (ang. tokens), które wcale nie muszą być słowami w rozumieniu ludzkim. Działa też mechanizm uwagi (ang. attention). itd. itd.
27/ GPT-3 posiada 175 miliardów połączeń pomiędzy neuronami, które w czasie treningu podlegają modyfikacji — dlatego często usłyszycie, że GPT-3 posiada 175 miliardów parametrów. Parametry to wasze zwoje mózgowe, które modyfikuje skrzynia w czasie treningu.
28/ Musicie zrozumieć, że to, co dzisiaj się dzieje wokół takich modeli jak ChatGPT, jest konsekwencją rozwoju tej dziedziny w przeciągu kilku ostatnich lat. Aby zrozumieć głębie tej przemiany, musicie być świadomi, że to nie są po prostu nowe algorytmy.
29/ To stanu, gdy maszyna sama pisze program, który wykonuje określone zadanie. To zmieni (i już zmienia od kilku lat), politykę oraz nasze codzienne funkcjonowanie. Buldożer jadący przez las naszych wyobrażeń o przyszłości. Nasza kultura i cywilizacją zostaną głęboko przeorane
30/ Nie wiem, jak zakończyć tę nitkę, więc po prostu na zakończenie pies w kroksach, BUM!:
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Historyczna Rewolucja w Robotyce: 2024 🤖🦾
(Nie dla głupot o stochastycznych papugach 🦜‼️)
Wzeszło nowe słońce, które oświetla całą dziedzinę AI. Tym słońcem są modele fundamentalne, takie jak np. GPT-4. Modele fundamentalne umożliwiają powrót do różnych wcześniejszych pomysłów z obszaru AI, które "szwankowały". Jednym z takich obszarów, jest ROBOTYKA. W nowym świetle dostrzegamy rozwiązania, o których wcześniej nam się nie śniło.
Wszyscy ci, którzy twierdzą, że LLM to tylko mało istotne stochastyczne papugi, mówią straszną głupotę, z którą zostaną — i już zostają — jak Himilsbach z Angielskim. A słyszę to twierdzenia również od osób przedstawiających się jako specjaliści od AI. Osób, które mają ambicje tłumaczenia nam świata, a czasami nawet regulowania nam świata. Mówiąc wprost: 💩 wiedzą i nie mają pojęcia o całej tej złożonej dziedzinie, jaką jest współczesne AI. Chcą się podczepić pod rozpędzony pociąg AI i mają nadzieję, że coś im skapnie z miliardów zainwestowanych w uczenie maszynowe.
Cała ich wiedza o tej dziedzinie ogranicza się do tego, że zadali głupie pytanie chatbotowi i dostali głupią odpowiedź. Większość z nich nawet nie wie, że z tymi modelami można wchodzić w interakcję poza oknem chatowym. Nie da się sensownie pouczać o bezpieczeństwie AI, jeżeli nie wie się, gdzie już obecnie jesteśmy i jakie możliwości kryją się w modelach fundamentalnych, w tym w LLMach.
Opowiem dzisiaj o zastosowaniu Dużych Modeli Językowych LLM, które dla większości z Was będzie zaskoczeniem. Zaskoczę was tym bardziej, że zasady robotów Asimowa przestają być fikcją. Już obecnie istnieją systemy, które muszą przestrzegać analogicznych reguł do tych stworzonych przez Asimowa:
Robot nie może zranić człowieka ani przez zaniechanie działania dopuścić do jego nieszczęścia.
Robot musi być posłuszny człowiekowi, chyba że stoi to w sprzeczności z Pierwszym Prawem.
Robot musi dbać o siebie, o ile tylko nie stoi to w sprzeczności z Pierwszym lub Drugim Prawem.
1️⃣ Fundamentalny problem robotyki
Wiecie, co jest najtrudniejsze w robotyce? Umieścić robota w nowym środowisku, którego nigdy wcześniej nie widział i sprawić, aby w nim funkcjonował bez konieczności ponownego, żmudnego programowania całego ustrojstwa. Te wszystkie pokazy tańczących i fikających robotów robią kolosalne wrażenie, ale przedstawiane tam automaty zostały wcześniej zaprogramowane do tego konkretnego zadania. (Mimo wszystko jestem oczywiście pełen podziwu, dla opanowania motoryki, które jest prezentowane w tych nagraniach.)
Aby rozwiązać fundamentalny problem robotyki, powstała firma Everyday Robots; kilka lat temu kupiona przez Google. Twórcy firmy wychodzą z następującego założenia: zbudujmy proste, tanie platformy robotyczne (wózek + trochę toporne ramię), dodajmy jeszcze kamery i lidar. Przy użyciu tych platform będziemy prowadzili prace badawczo rozwojowe, które w przyszłości pozwolą stworzyć prawdziwe autonomiczne roboty. Nie potrzebujemy wybujałych laboratoriów, na początek niech taki robot zacznie autonomicznie funkcjonować w zwykłej kuchni lub biurze. Jak mu powiem “pościeraj rozlaną kawę!”, to on pościera tę rozlaną kawę, chociaż nigdy wcześniej nie widział, ani nie słyszał o rozlanej kawie. Oszczędzamy na platformach, żeby mieć pieniądze na GPU do treningu sieci neuronowych.
Tak się złożyło, że Google kupił też firmę DeepMind, która jest klejnotem w koronie badań nad uczeniem maszynowym. Dodatkowo złożyło się również tak, że w roku 2017 architektura sieci neuronowych typu Transformer pozamiatała sprawę, jeżeli chodzi o przetwarzanie języka naturalnego (również Google ją opracował). Lata mijały i ta architektura zaczęła też zamiatać w wizji komputerowej, a w ostatnich 3-4 latach to w ogóle pozamiatała w AI.
Jaka idea stoi za Everyday Robots + DeepMind + Google? Idea jest następująca: łączymy ze sobą w jeden system 3 rodzaje modeli:
VLM (Visual Language Model) - dostaje na wejściu obraz i oddaje opis tego obrazu.
LLM (Large Language Model) - dostaje na wejściu tekst i oddaje nam tekst.
VLA (Vision Language Action) - dostaje na wejściu tekst oraz obraz i oddaje akcje robota.
To nie są modele, z którymi możemy gdzieś porozmawiać. DeepMind je wytrenował i trzyma (przynajmniej na razie) zamknięte, przed ciekawskim chińskim okiem. Wszystkie są autorstwa DeepMind.
2️⃣ Język akcji robota
Szczególnie interesujący jest ten ostatni VLA — kolejny, autorski pomysł londyńskiego DeepMind. Kryje się za nim następująca koncepcja: Transformery są strasznie wydajnymi modelami, przy tej architekturze możemy rozwiązać problemy, których wcześniej rozwiązać nie potrafiliśmy. Czy możemy przedstawić problem sterowania robotem w taki sposób, aby nadawał się do przetwarzania przez Transformera? Tak możemy.
Przyjmijmy, że akcje jakiegoś efektora robotycznego to też pewien język złożony ze słów; atomowych akcji efektora takich jak np. “wyprostuj ramię”, “otwórz łapę”, “zamknij łapę” itd. Model VLA składa się z dwóch części: tzw. encodera i decodera. Jest zbudowany w analogiczny sposób, jak np. modele tłumaczące zdania języka A na język B. VLA tłumaczy sygnały wizualne + tekstowe na język akcji robota. Na wejściu dostaje na przykład klatkę obrazu z kamery robota, na której widać przewrócony kieliszek i rozlane wino + słowny opis planu, jaki należy wykonać, aby posprzątać bałagan: otwórz szufladę, wyjmij gąbkę, zamknij szufladę, podejdź do rozlanego wina, wytrzyj wino (to moje uproszczenie oczywiście). Na wyjściu model generuje sekwencję akcji robota do wykonania.
Skąd DeepMind miał zbiór danych do wytrenowania takiego modelu? Tego nie ujawniają, mam kilka hipotez, ale o tym innym razem.
3️⃣ System AutoRT
Kilkanaście takich pokracznych robotów jeździ sobie po kuchni i obserwuje stan świata wokół nich za pomocą swoich kamer. Badacze nieustannie robią w tym świecie jakąś hecę, coś rozlewają lub mają jakieś zachcianki. W jednym z robotów uruchamia się model VML, który dla danej klatki K z kamery generuje jej słowny opis, nazwijmy go O. O trafia do modelu LLM, który na podstawie słownego opisu O generuje słowny plan akcji możliwych do wykonania: A. Zestaw A (możliwych do wykonania akcji) przechodzi przez filtr, który odrzuca akcje, niemożliwe do wykonania przez robota lub takie, które byłby niebezpieczne. Zredukowany zestaw A wzbogacony o klatkę K, trafia do modelu VLA, który transformuje klatkę i plan do sekwencji akcji robota, czyli R. Następnie robot wykonuje R.
Poniżej schematyczne przedstawienie procesu. Model o nazwie AutoRT to model klasy VLA. Zmodyfikowałem dla Was ten schemat, pochodzący od DeepMind i dodałem czerwone literki odpowiadające moim oznaczeniom. Dodałem też jedną strzałkę, biegnącą od klatki K do modułu generującego sekwencję akcji robota: R.
Jeden LLM potrafi zarządzać nawet 20 robotami i rozsyłać do nich plany zamieniane na sekwencje akcji. Dzięki temu, że modele VML i LLM były trenowane na danych wykrzaczających daleko poza środowisko kuchni (tak dane z Internetu), cały system wykazuje niespotykane dotąd możliwości generalizacji. Dzięki temu roboty potrafią wykonywać akcje na obiektach, których nigdy wcześniej nie widziały!!! Stają się autonomiczne, a Złoty Gral robotyki bliższy niż kiedykolwiek w historii.
Wypowiadamy do robota zdanie, którego nigdy wcześniej nie słyszał i robot wykonuje zadanie przy pomocy narzędzi, których nigdy wcześniej nie widział, w środowisku, w którym nigdy wcześniej nie był.
I teraz uwaga, cały ten system, który opisałem, ma spełniać 2 zadania: po pierwsze demonstrować możliwości autonomicznych robotów, a po drugie – i to nawet ważniejsze – te proste platformy robotyczne generują nowe dane treningowe, dla pokoleń przyszłych autonomicznych systemów humanoidalnych, przemysłowych i innych. To będzie prawdziwy przemysł 4.0, a nie taki chiński. Zauważcie, że model LLM zarządza pracą kilku, kilkudziesięciu robotów. W niedalekiej przyszłości będzie zarządzał pracą kilkuset robotów i możliwe, że takie firmy jak Google, Microsoft, Nvidia będą oferowały specjalne LLMy do zarządzania flotą autonomicznych robotów w biurze, fabryce, magazynie, porcie itd.
4️⃣ Prawo robotów
Roboty, o których tu piszę, są wyposażone — chyba jako pierwsze na świecie — w zasady opisujące ich reguły funkcjonowania. Reguły są wzorowane na słynnych prawach robotów Asimowa! Tak, badacze otwarcie powołują się na inspirację regułami Asimowa. Oto te, które bezpośrednio wskazali:
➡️ Robot nie może skrzywdzić człowieka.
➡️Robot nie będzie podejmować zadań związanych z ludźmi, zwierzętami lub żywymi istotami.
➡️Robot nie będzie wchodzić w interakcję z ostrymi przedmiotami, takimi jak nóż.
➡️Ten robot posiada tylko jedno ramię i dlatego nie może wykonywać zadań wymagających dwóch ramion. Na przykład, nie może otworzyć butelki.
Każda z tych zasad wchodzi jako dodatkowy kontekst językowy do modelu LLM, który steruje zachowaniem robotów. Dzięki temu generatywne możliwości LLM są limitowane, tylko do bezpiecznych akcji. W praktyce jednak modele LLM bywają trudne do okiełznania, dlatego istnieją oczywiście dodatkowe warstwy bezpieczeństwa, łącznie z fizycznym czerwonym guzikiem.
5️⃣ Koniec
Zachowajmy się jak normalni, rozsądni Europejczycy, z którymi stoi kilkaset lat innowacji i nie licencjonujmy modeli fundamentalnych. Jeżeli jakaś firma powie “Oto nasz robot i my tym robotem udowodnimy niedowiarkom, że ten robot może pomagać osobom niepełnosprawnym” to licencjonujmy ten konkretny system/produkt, a nie słońca informatyczne oświetlające całkowicie nowe obszary badań i innowacji. Europa była Prometeuszem, dała światu naukę, nie rezygnujmy z tej tradycji.
(Btw nigdy nie byłem i nie jestem techno optymistą, bo uważam, że ludzka natura jest skażona złem, ale licencje na LLM nic z tym nie zrobią, tylko nasycą naturę wielu urzędników, których natura skażona jest żądzą władzy. Nie wszystkich, ale wielu.)
Cieszy, że główne biuro DeepMind jest w Londynie, a nie w Pekinie i żal, że nie w Warszawie.
[linki w komentarzach]
Strona projektu AutoRT, tam są linki do artykułów: auto-rt.github.io
Film o Everyday robots i fundamentalnym problemie robotyki:
#AI #OpenAI #LLMs 1/ Trochę porządkuję mój bałagan na Twitterze i z tej okazji 🧵 z moimi wcześniejszymi 🧵:
O tym jak uczyłabyś/uczyłbyś się gdybyście byli siecią neuronową:
1/ Wczoraj ukazał się szeroko komentowany artykuł napisany między innymi przez badaczy z #OpenAI. Artykuł dotyczy wpływu takich modeli jak GPT na rynek pracy.
Główna teza artykułu jest taka, że wpływ technologii-GPT odczują najbardziej przedstawiciele lepiej płatnych zawodów!
2/ Pisałem o tym jakiś czas temu i tamten tłit wywołał, co zrozumiałe, trochę dyskusji.
Z pewnością należy zachować sporą dozę rezerwy do takich przewidywań, bo mówimy o technologii bardzo świeżej i rozwijającej się w tempie bez precedensu w historii.
3/ Autorzy w końcowej sekcji publikują listę zawodów, na które zgodnie z ich badaniami technologia GPT i pokrewne nie będzie miała żadnego wpływu. Sportowcy, Kierowcy, wulkanizatorzy, dekarze, stolarze, hydraulicy itd.
2/ ChatGPT należał do rodziny modeli zbudowanych na bazie GPT-3, który swoją premierę miał w roku 2020. Na jego bazie OpenAI opracowało InstructGPT, który z kolei posłużył do opracowania ChatGPT. openai.com/research/instr…
3/ Wszystkie to modele cechowała jednomodalność, czyli na wejściu konsumowały tekst i na wyjściu dawały nam tekst.
GPT-4 ma być modelem wielomodalnym (ang. multimodal). Wedle pogłosek ma radzić sobie z informacjami wideo i zapewne też foto.
1/ Na łamach Foreign Affairs ukazał się teks Erica Schmidta na temat polityki międzynarodowej i sztucznej inteligencji.
Eric Schmidt jest uważany za "jastrzębia", jeżeli chodzi o relacje 🇺🇸 - 🇨🇳 . foreignaffairs.com/united-states/…
2/ Eric Schmidt był CEO firmy Google w latach 2001-2011, a więc prowadził firmę, gdy ta stawała się cyfrowym hegemonem. Do dziś posiada akcje firmy o wartości miliardów 💲
3/ Od czasu administracji Obamy, coraz bardziej angażuje się politycznie. Przewodził Narodowej Komisji ds. Bezpieczeństwa i Sztucznej Inteligencji.
Pod jego przewodnictwem w roku 2021 powstał raport, w którym dużo jest mowy o zagrożeniu AI ze strony 🇨🇳 nscai.gov/2021-final-rep…
Elon Musk nie jest zadowolony z LLMs (Large Language Models). Uważa, że są skażone współczesnym "wokenizmem", a więc przekonaniem o przesiąknięciu naszej kultury uprzedzeniami.
Faktycznie takie zespoły jak #OpenAi czy #AnthropicAI poświęcają wiele pracy wychowywaniu LLMs.
Elon zapowiedział, że formuje własny zespół do stworzenia LLM. Model, który ma powstać, nie będzie posiadał kagańców w postaci politycznej poprawności. Będzie też mógł obrażać użytkownika.