Leszek Bukowski Profile picture
Jan 31 31 tweets 9 min read
Chciałem dziś kontynuować refleksje związane z "Chip War", ale chwila oddechu 😛 Dziś 🧵 o SZTUCZNEJ INTELIGENCJI! A dokładnie w jaki sposób uczy się sieć neuronowa? Długa 🧵! Image
1/ Zgodnie z koncepcją "singularity" inteligencja maszyny miałaby być lepsza od ludzkiej w każdej dziedzinie. Nie wiem, czy tak będzie i szczerze mówiąc, nie przepadam za tą koncepcją, ale na pewno istnieją obszary, w których już obecnie maszyny są lepsze od nas. Image
2/ Wszyscy np. traktujemy już jako oczywistość, że komputer posortuje 10K liczb od najmniejszej do największej o wiele sprawniej niż człowiek. 100 lat temu to wcale nie było takie oczywiste. Image
3/ Dziś modele AI wykonują zadania, które nie są tak deterministyczne, jak sortowanie i robią to często lepiej niż my. Są zapewne lepszymi kierowcami, lepiej potrafią analizować zdjęcia, a nawet sprawniej przewidują skręt łańcuchów białkowych alphafold.ebi.ac.uk
4/ Ostatnio model AI opracował nowy sposób mnożenia macierzy deepmind.com/blog/discoveri… (jest to jedna z elementarnych operacji we współczesnych sieciach neuronowych typu Transformer). Sieci już same ulepszają siebie.
5/ Nvidia wykorzystuje uczenie ze wzmocnieniem do projektowania swoich układów scalonych:
developer.nvidia.com/blog/designing…
6/ Sieci Neuronowe (SN) uczą się inaczej niż ludzie. Niektórzy uważają, że to problem, chociażby Yann LeCun, jeden z ojców założycieli dziedziny, którą dziś określamy jako uczenie głębokie. Z drugiej strony, bardzo możliwe, że ludzka inteligencja jest tylko jedną z możliwych. Image
7/ W każdym razie współczesne systemy AI mają inną inteligencję niż ludzka. Objaśnienie procesu uczenia się SN, wcale nie jest prostym zadaniem. To jest też ćwiczenie dla mnie.
8/ Zadajmy sobie następujące pytanie: w jaki sposób zdobywałabym/zdobywałbym nowe umiejętności, jeżeli uczyłabym/uczyłbym się tak, jak uczą się SN? Mam nadzieję, że taki eksperyment myślowy ułatwi zrozumienie ogólnego schematu, jakiemu podlega trening SN. Trenowanie sieci, to...
9/ ważna umiejętność osób zajmujących się dziś uczeniem maszynowym. Nasz eksperyment myślowy przeprowadzimy na pewnym dość konkretnym przykładzie. Jak zapewne większość z Was wie, dziś meble (najczęściej) są sprzedawane w częściach i musimy je poskładać sami. Załóżmy, że... Image
10/ zamówiliśmy krzesło. Jako ludzie: odbieramy karton, otwieramy paczkę, otwieramy instrukcję i krok po kroku, z większymi lub mniejszymi sukcesami, składamy krzesło. A teraz gimnastyka umysłowa: gdybyśmy uczyli się jak SN, to wszystko musiałoby wyglądać trochę inaczej. Image
11/ Otrzymalibyśmy paczkę z częściami krzesła, czarny kufer, do którego nie mamy klucza i nie możemy zobaczyć, co jest w środku oraz dziwne słuchawki, które możemy kablem podłączyć do tego czarnego kufra. Nie dostalibyśmy absolutnie, żadnej instrukcji!
12/ Jeszcze jedno, zakładamy, że nigdy wcześniej nie wiedzieliśmy krzesła. Mamy 0 o wiedzy krzesłach. W tajemnicy powiem wam, że w tej czarnej skrzyni znajduje się idealne krzesło — ale wy wewnątrz tego eksperymentu myślowego o tym nie wiecie! Image
13/ Proces nauki przebiegałby tak: części krzesła składacie w przypadkowy sposób. W tym czasie specjalny moduł czarnej skrzyni skanuje waszą pracę i mierzy jak daleko poskładane przez was elementy, znajdują się od swoich miejsc w idealnym krześle... (moje notatki 😛) Image
14/ W czasie waszej pracy skrzynia, na podstawie pomiarów waszych błędów, wysyła sygnały przez specjalne słuchawki do waszego 🧠. W wyniku działania tych sygnałów wasze zwoje mózgowe zmieniają się w taki sposób, że coraz mniejsze błędy popełniacie, względem idealnego krzesła.
15/ Po pierwszym złożeniu krzesła, otrzymujecie jakiegoś potworka, ale rozbieracie wszystko w drobny mak i zaczynacie proces składania od nowa. Cały czas skrzynia mierzy wasze błędy i koryguje wam zwoje mózgowe, abyście popełniali coraz mniejsze błędy.
16/ Proces powtarzacie kilka — kilkaset razy. W pewnym momencie zostajecie już na tyle skorygowani przez czarną skrzynię, że krzesła, które budujecie, przestają być potworkami i stają się podobne do krzeseł! Nauczyliście się czegoś nowego sposobem SN.
17/ W rzeczywistości to sprawdzanie waszego błędu nazywamy "funkcją straty" (ang. loss function), proces modyfikowania zwojów, mózgowych, nazywamy "propagacją wsteczną" (ang. backpropagation). Zawartość czarnego kufra to funkcja celu (ang. objective function) Image
18/ Czyli SN uczy się (czasami używamy terminu "trenuje się") w przebiegach, które nazywamy epokami (ang. epoch). Jedna epoka to przejście sieci przez cały zbiór danych treningowych. Współcześnie każda sieć neuronowa musi mieć określone takie 3 funkcje.
19/ Musi wiedzieć, czego ma się uczyć -> funkcja celu; musi umieć zmierzyć swój błąd względem celu -> funkcja straty i musi umieć rozpropagować swój błąd jako korektę połączeń pomiędzy neuronami -> propagacja wsteczna. Tak działa GPT-3, DALL-E itd.
20/ SN nie są standardowymi algorytmami! W klasycznym podejściu do programowania dajemy maszynie sekwencję instrukcji, które musi wykonać, aby rozwiązać pewien stawiany przed nią problem. W uczeniu maszynowym programujemy samą sieć, a ona następnie uczy się rozwiązania problemu. Image
21/ Maszyna sama się programuje w procesie uczenia. Dla ludzi, kod we wnętrzu SN rozwiązującej dany problem, jest całkowicie nieczytelny! W pewnym sensie SN przeszukuje przestrzeń możliwych rozwiązań algorytmicznych danego problemu w pogoni za najlepszym.
karpathy.medium.com/software-2-0-a…
22/ Przykładowo funkcją celu SN z rodziny GPT (ChatGPT to kolejna odsłona tych SN!) jest odgadywanie kolejnych słów w sekwencji. W czasie treningu GPT jest karmiona miliardami zdań pobranymi z Internetu. I jej zadanie polega na...
chat.openai.com/auth/login
23/ Odgadywaniu następnego słowa w zdaniu, na podstawie tych, które już przeczytała (jej funkcja celu). Wyobraźmy sobie, że cały Internet składa się tylko z jednego zdania "Ala ma kota". Możemy stworzyć słownik, w którym ponumerujemy wszystkie słowa z naszego mini-internetu:
24/ 1: Ala 2: ma 3: kota. Poniżej prosty schemat SN z warstwą wejściową po lewej stronie, jedną warstwą ukrytą i warstwą wyjściową po prawej stronie. Jeżeli SN już przeczytała dwa pierwsze słowa, to zapalają jej się odpowiednie neurony, czyli neuron 1 i neuron 2 na wejściu. Image
25/ Oczekujemy, że w warstwie wyjściowej zapali się neuron 3, który odpowiada słowu "kota". Tak jest na grafice. Jeżeli zapaliłby się inny neuron, to znaczy, że mamy błąd i SN powinna skorygować wagi na połączeniach pomiędzy neuronami, tak aby zapalił się nr 3. Siec neuronowa z 3 neuronam...
26/ W rzeczywistości to wszystko jest dużo bardziej skomplikowane. Zdania nie są dzielone na słowa, tylko na "cząstki" (ang. tokens), które wcale nie muszą być słowami w rozumieniu ludzkim. Działa też mechanizm uwagi (ang. attention). itd. itd. Image
27/ GPT-3 posiada 175 miliardów połączeń pomiędzy neuronami, które w czasie treningu podlegają modyfikacji — dlatego często usłyszycie, że GPT-3 posiada 175 miliardów parametrów. Parametry to wasze zwoje mózgowe, które modyfikuje skrzynia w czasie treningu. Image
28/ Musicie zrozumieć, że to, co dzisiaj się dzieje wokół takich modeli jak ChatGPT, jest konsekwencją rozwoju tej dziedziny w przeciągu kilku ostatnich lat. Aby zrozumieć głębie tej przemiany, musicie być świadomi, że to nie są po prostu nowe algorytmy.
29/ To stanu, gdy maszyna sama pisze program, który wykonuje określone zadanie. To zmieni (i już zmienia od kilku lat), politykę oraz nasze codzienne funkcjonowanie. Buldożer jadący przez las naszych wyobrażeń o przyszłości. Nasza kultura i cywilizacją zostaną głęboko przeorane Image
30/ Nie wiem, jak zakończyć tę nitkę, więc po prostu na zakończenie pies w kroksach, BUM!: Image

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Leszek Bukowski

Leszek Bukowski Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @LeszBuk

Jan 14
Dziś 🧵o książce Chrisa Millera "Chip WAR" 🚀🚀🚀
Garść nawiązań i cytatów w moim pokracznym tłumaczeniu.
Książka przedstawia całą historię półprzewodników i układów scalonych od samych początków, mających miejsce w Bell Labs, powstanie Doliny Krzemowej aż po lata 2020-2021, kiedy pandemia uderza w gospodarkę światową.
Już w latach 80 🇺🇸 prowadziły pierwszą wojnę krzemową z 🇯🇵. Jedna z odsłon tej wojny polegała na tym, że agenci FBI przyłapali japońskie Hitachi na szpiegostwie przemysłowym. s. 86
Read 12 tweets
Oct 21, 2022
1/n Skok technologiczny w dziedzinie półprzewodników, od którego 🇺🇸USA chce odciąć 🇨🇳Chiny, ma trzy aspekty:
1/3 Zastosowanie nowych technologii i algorytmów do projektowania GPU, CPU oraz eksperymentowanie z nowymi architekturą procesorów, np.: bit.ly/3TJs75E
2/3 Hojne inwestycje funduszy VC w innowacyjne projekty związane z procesorami (AI Chip Boom)
bit.ly/3eMIgJ5
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(