Leszek Bukowski 🧠💻🏛️👾 Profile picture
Natural Language Processing/Machine Learning | Doctor of Philosophy | Husband | Father | You name it
Jan 22 7 tweets 9 min read
Historyczna Rewolucja w Robotyce: 2024 🤖🦾
(Nie dla głupot o stochastycznych papugach 🦜‼️)

Wzeszło nowe słońce, które oświetla całą dziedzinę AI. Tym słońcem są modele fundamentalne, takie jak np. GPT-4. Modele fundamentalne umożliwiają powrót do różnych wcześniejszych pomysłów z obszaru AI, które "szwankowały". Jednym z takich obszarów, jest ROBOTYKA. W nowym świetle dostrzegamy rozwiązania, o których wcześniej nam się nie śniło.

Wszyscy ci, którzy twierdzą, że LLM to tylko mało istotne stochastyczne papugi, mówią straszną głupotę, z którą zostaną — i już zostają — jak Himilsbach z Angielskim. A słyszę to twierdzenia również od osób przedstawiających się jako specjaliści od AI. Osób, które mają ambicje tłumaczenia nam świata, a czasami nawet regulowania nam świata. Mówiąc wprost: 💩 wiedzą i nie mają pojęcia o całej tej złożonej dziedzinie, jaką jest współczesne AI. Chcą się podczepić pod rozpędzony pociąg AI i mają nadzieję, że coś im skapnie z miliardów zainwestowanych w uczenie maszynowe.

Cała ich wiedza o tej dziedzinie ogranicza się do tego, że zadali głupie pytanie chatbotowi i dostali głupią odpowiedź. Większość z nich nawet nie wie, że z tymi modelami można wchodzić w interakcję poza oknem chatowym. Nie da się sensownie pouczać o bezpieczeństwie AI, jeżeli nie wie się, gdzie już obecnie jesteśmy i jakie możliwości kryją się w modelach fundamentalnych, w tym w LLMach.

Opowiem dzisiaj o zastosowaniu Dużych Modeli Językowych LLM, które dla większości z Was będzie zaskoczeniem. Zaskoczę was tym bardziej, że zasady robotów Asimowa przestają być fikcją. Już obecnie istnieją systemy, które muszą przestrzegać analogicznych reguł do tych stworzonych przez Asimowa:

Robot nie może zranić człowieka ani przez zaniechanie działania dopuścić do jego nieszczęścia.
Robot musi być posłuszny człowiekowi, chyba że stoi to w sprzeczności z Pierwszym Prawem.
Robot musi dbać o siebie, o ile tylko nie stoi to w sprzeczności z Pierwszym lub Drugim Prawem.

1️⃣ Fundamentalny problem robotyki
Wiecie, co jest najtrudniejsze w robotyce? Umieścić robota w nowym środowisku, którego nigdy wcześniej nie widział i sprawić, aby w nim funkcjonował bez konieczności ponownego, żmudnego programowania całego ustrojstwa. Te wszystkie pokazy tańczących i fikających robotów robią kolosalne wrażenie, ale przedstawiane tam automaty zostały wcześniej zaprogramowane do tego konkretnego zadania. (Mimo wszystko jestem oczywiście pełen podziwu, dla opanowania motoryki, które jest prezentowane w tych nagraniach.)

Aby rozwiązać fundamentalny problem robotyki, powstała firma Everyday Robots; kilka lat temu kupiona przez Google. Twórcy firmy wychodzą z następującego założenia: zbudujmy proste, tanie platformy robotyczne (wózek + trochę toporne ramię), dodajmy jeszcze kamery i lidar. Przy użyciu tych platform będziemy prowadzili prace badawczo rozwojowe, które w przyszłości pozwolą stworzyć prawdziwe autonomiczne roboty. Nie potrzebujemy wybujałych laboratoriów, na początek niech taki robot zacznie autonomicznie funkcjonować w zwykłej kuchni lub biurze. Jak mu powiem “pościeraj rozlaną kawę!”, to on pościera tę rozlaną kawę, chociaż nigdy wcześniej nie widział, ani nie słyszał o rozlanej kawie. Oszczędzamy na platformach, żeby mieć pieniądze na GPU do treningu sieci neuronowych.

Tak się złożyło, że Google kupił też firmę DeepMind, która jest klejnotem w koronie badań nad uczeniem maszynowym. Dodatkowo złożyło się również tak, że w roku 2017 architektura sieci neuronowych typu Transformer pozamiatała sprawę, jeżeli chodzi o przetwarzanie języka naturalnego (również Google ją opracował). Lata mijały i ta architektura zaczęła też zamiatać w wizji komputerowej, a w ostatnich 3-4 latach to w ogóle pozamiatała w AI.

Jaka idea stoi za Everyday Robots + DeepMind + Google? Idea jest następująca: łączymy ze sobą w jeden system 3 rodzaje modeli:
VLM (Visual Language Model) - dostaje na wejściu obraz i oddaje opis tego obrazu.
LLM (Large Language Model) - dostaje na wejściu tekst i oddaje nam tekst.
VLA (Vision Language Action) - dostaje na wejściu tekst oraz obraz i oddaje akcje robota.
To nie są modele, z którymi możemy gdzieś porozmawiać. DeepMind je wytrenował i trzyma (przynajmniej na razie) zamknięte, przed ciekawskim chińskim okiem. Wszystkie są autorstwa DeepMind.

2️⃣ Język akcji robota
Szczególnie interesujący jest ten ostatni VLA — kolejny, autorski pomysł londyńskiego DeepMind. Kryje się za nim następująca koncepcja: Transformery są strasznie wydajnymi modelami, przy tej architekturze możemy rozwiązać problemy, których wcześniej rozwiązać nie potrafiliśmy. Czy możemy przedstawić problem sterowania robotem w taki sposób, aby nadawał się do przetwarzania przez Transformera? Tak możemy.

Przyjmijmy, że akcje jakiegoś efektora robotycznego to też pewien język złożony ze słów; atomowych akcji efektora takich jak np. “wyprostuj ramię”, “otwórz łapę”, “zamknij łapę” itd. Model VLA składa się z dwóch części: tzw. encodera i decodera. Jest zbudowany w analogiczny sposób, jak np. modele tłumaczące zdania języka A na język B. VLA tłumaczy sygnały wizualne + tekstowe na język akcji robota. Na wejściu dostaje na przykład klatkę obrazu z kamery robota, na której widać przewrócony kieliszek i rozlane wino + słowny opis planu, jaki należy wykonać, aby posprzątać bałagan: otwórz szufladę, wyjmij gąbkę, zamknij szufladę, podejdź do rozlanego wina, wytrzyj wino (to moje uproszczenie oczywiście). Na wyjściu model generuje sekwencję akcji robota do wykonania.

Skąd DeepMind miał zbiór danych do wytrenowania takiego modelu? Tego nie ujawniają, mam kilka hipotez, ale o tym innym razem.

3️⃣ System AutoRT
Kilkanaście takich pokracznych robotów jeździ sobie po kuchni i obserwuje stan świata wokół nich za pomocą swoich kamer. Badacze nieustannie robią w tym świecie jakąś hecę, coś rozlewają lub mają jakieś zachcianki. W jednym z robotów uruchamia się model VML, który dla danej klatki K z kamery generuje jej słowny opis, nazwijmy go O. O trafia do modelu LLM, który na podstawie słownego opisu O generuje słowny plan akcji możliwych do wykonania: A. Zestaw A (możliwych do wykonania akcji) przechodzi przez filtr, który odrzuca akcje, niemożliwe do wykonania przez robota lub takie, które byłby niebezpieczne. Zredukowany zestaw A wzbogacony o klatkę K, trafia do modelu VLA, który transformuje klatkę i plan do sekwencji akcji robota, czyli R. Następnie robot wykonuje R.

Poniżej schematyczne przedstawienie procesu. Model o nazwie AutoRT to model klasy VLA. Zmodyfikowałem dla Was ten schemat, pochodzący od DeepMind i dodałem czerwone literki odpowiadające moim oznaczeniom. Dodałem też jedną strzałkę, biegnącą od klatki K do modułu generującego sekwencję akcji robota: R.

Jeden LLM potrafi zarządzać nawet 20 robotami i rozsyłać do nich plany zamieniane na sekwencje akcji. Dzięki temu, że modele VML i LLM były trenowane na danych wykrzaczających daleko poza środowisko kuchni (tak dane z Internetu), cały system wykazuje niespotykane dotąd możliwości generalizacji. Dzięki temu roboty potrafią wykonywać akcje na obiektach, których nigdy wcześniej nie widziały!!! Stają się autonomiczne, a Złoty Gral robotyki bliższy niż kiedykolwiek w historii.
Wypowiadamy do robota zdanie, którego nigdy wcześniej nie słyszał i robot wykonuje zadanie przy pomocy narzędzi, których nigdy wcześniej nie widział, w środowisku, w którym nigdy wcześniej nie był.

I teraz uwaga, cały ten system, który opisałem, ma spełniać 2 zadania: po pierwsze demonstrować możliwości autonomicznych robotów, a po drugie – i to nawet ważniejsze – te proste platformy robotyczne generują nowe dane treningowe, dla pokoleń przyszłych autonomicznych systemów humanoidalnych, przemysłowych i innych. To będzie prawdziwy przemysł 4.0, a nie taki chiński. Zauważcie, że model LLM zarządza pracą kilku, kilkudziesięciu robotów. W niedalekiej przyszłości będzie zarządzał pracą kilkuset robotów i możliwe, że takie firmy jak Google, Microsoft, Nvidia będą oferowały specjalne LLMy do zarządzania flotą autonomicznych robotów w biurze, fabryce, magazynie, porcie itd.

4️⃣ Prawo robotów
Roboty, o których tu piszę, są wyposażone — chyba jako pierwsze na świecie — w zasady opisujące ich reguły funkcjonowania. Reguły są wzorowane na słynnych prawach robotów Asimowa! Tak, badacze otwarcie powołują się na inspirację regułami Asimowa. Oto te, które bezpośrednio wskazali:

➡️ Robot nie może skrzywdzić człowieka.
➡️Robot nie będzie podejmować zadań związanych z ludźmi, zwierzętami lub żywymi istotami.
➡️Robot nie będzie wchodzić w interakcję z ostrymi przedmiotami, takimi jak nóż.
➡️Ten robot posiada tylko jedno ramię i dlatego nie może wykonywać zadań wymagających dwóch ramion. Na przykład, nie może otworzyć butelki.

Każda z tych zasad wchodzi jako dodatkowy kontekst językowy do modelu LLM, który steruje zachowaniem robotów. Dzięki temu generatywne możliwości LLM są limitowane, tylko do bezpiecznych akcji. W praktyce jednak modele LLM bywają trudne do okiełznania, dlatego istnieją oczywiście dodatkowe warstwy bezpieczeństwa, łącznie z fizycznym czerwonym guzikiem.

5️⃣ Koniec
Zachowajmy się jak normalni, rozsądni Europejczycy, z którymi stoi kilkaset lat innowacji i nie licencjonujmy modeli fundamentalnych. Jeżeli jakaś firma powie “Oto nasz robot i my tym robotem udowodnimy niedowiarkom, że ten robot może pomagać osobom niepełnosprawnym” to licencjonujmy ten konkretny system/produkt, a nie słońca informatyczne oświetlające całkowicie nowe obszary badań i innowacji. Europa była Prometeuszem, dała światu naukę, nie rezygnujmy z tej tradycji.

(Btw nigdy nie byłem i nie jestem techno optymistą, bo uważam, że ludzka natura jest skażona złem, ale licencje na LLM nic z tym nie zrobią, tylko nasycą naturę wielu urzędników, których natura skażona jest żądzą władzy. Nie wszystkich, ale wielu.)

Cieszy, że główne biuro DeepMind jest w Londynie, a nie w Pekinie i żal, że nie w Warszawie.

[linki w komentarzach]Image
Image
Image
Image
Strona projektu AutoRT, tam są linki do artykułów:
auto-rt.github.io
Mar 21, 2023 14 tweets 5 min read
1/ Wczoraj ukazał się szeroko komentowany artykuł napisany między innymi przez badaczy z #OpenAI. Artykuł dotyczy wpływu takich modeli jak GPT na rynek pracy.
Główna teza artykułu jest taka, że wpływ technologii-GPT odczują najbardziej przedstawiciele lepiej płatnych zawodów! Image 2/ Pisałem o tym jakiś czas temu i tamten tłit wywołał, co zrozumiałe, trochę dyskusji.
Z pewnością należy zachować sporą dozę rezerwy do takich przewidywań, bo mówimy o technologii bardzo świeżej i rozwijającej się w tempie bez precedensu w historii.
Mar 11, 2023 9 tweets 4 min read
1/ Wiele źródeł informuje, że w nadchodzącym tygodniu świat pozna nowy model od #OpenAI, czyli GPT-4 🚀 🚀 🚀
techmonitor.ai/technology/ai-… 2/ ChatGPT należał do rodziny modeli zbudowanych na bazie GPT-3, który swoją premierę miał w roku 2020. Na jego bazie OpenAI opracowało InstructGPT, który z kolei posłużył do opracowania ChatGPT.
openai.com/research/instr…
Mar 3, 2023 14 tweets 5 min read
1/ Na łamach Foreign Affairs ukazał się teks Erica Schmidta na temat polityki międzynarodowej i sztucznej inteligencji.
Eric Schmidt jest uważany za "jastrzębia", jeżeli chodzi o relacje 🇺🇸 - 🇨🇳 .
foreignaffairs.com/united-states/… 2/ Eric Schmidt był CEO firmy Google w latach 2001-2011, a więc prowadził firmę, gdy ta stawała się cyfrowym hegemonem. Do dziś posiada akcje firmy o wartości miliardów 💲
Mar 1, 2023 4 tweets 2 min read
Elon Musk nie jest zadowolony z LLMs (Large Language Models). Uważa, że są skażone współczesnym "wokenizmem", a więc przekonaniem o przesiąknięciu naszej kultury uprzedzeniami.

Faktycznie takie zespoły jak #OpenAi czy #AnthropicAI poświęcają wiele pracy wychowywaniu LLMs. Elon zapowiedział, że formuje własny zespół do stworzenia LLM. Model, który ma powstać, nie będzie posiadał kagańców w postaci politycznej poprawności. Będzie też mógł obrażać użytkownika.

reuters.com/technology/elo…
Feb 9, 2023 30 tweets 9 min read
Dzisiaj 🧵 o KONSTYTUCJI AI!! To nie będzie żadne science fiction, tylko opis tego, co dzieje się w trzewiach Google i OpnenAI. Warto sięgnąć do mojej poprzedniej 🧵 o tym, jak uczy się sieć neuronowa.
#AI #Openai #ChatGPT #AnthropicAI #transformers
1/ Upublicznienie przez OpenAI modelu ChatGPT wywołało duże poruszenie. O ile w naszym światku technologicznym już od co najmniej 2-3 lat było wiadomo, że istnieją modele o takich możliwościach, to jednak takie firmy jak Google bały się dać otwarty dostęp do nich. Image
Jan 31, 2023 31 tweets 9 min read
Chciałem dziś kontynuować refleksje związane z "Chip War", ale chwila oddechu 😛 Dziś 🧵 o SZTUCZNEJ INTELIGENCJI! A dokładnie w jaki sposób uczy się sieć neuronowa? Długa 🧵! Image 1/ Zgodnie z koncepcją "singularity" inteligencja maszyny miałaby być lepsza od ludzkiej w każdej dziedzinie. Nie wiem, czy tak będzie i szczerze mówiąc, nie przepadam za tą koncepcją, ale na pewno istnieją obszary, w których już obecnie maszyny są lepsze od nas. Image
Jan 14, 2023 12 tweets 4 min read
Dziś 🧵o książce Chrisa Millera "Chip WAR" 🚀🚀🚀
Garść nawiązań i cytatów w moim pokracznym tłumaczeniu. Książka przedstawia całą historię półprzewodników i układów scalonych od samych początków, mających miejsce w Bell Labs, powstanie Doliny Krzemowej aż po lata 2020-2021, kiedy pandemia uderza w gospodarkę światową.
Oct 21, 2022 4 tweets 1 min read
1/n Skok technologiczny w dziedzinie półprzewodników, od którego 🇺🇸USA chce odciąć 🇨🇳Chiny, ma trzy aspekty: 1/3 Zastosowanie nowych technologii i algorytmów do projektowania GPU, CPU oraz eksperymentowanie z nowymi architekturą procesorów, np.: bit.ly/3TJs75E