Tweet

Leszek Bukowski

Feb 9 • 30 tweets • 9 min read

Dzisiaj 🧵 o KONSTYTUCJI AI!! To nie będzie żadne science fiction, tylko opis tego, co dzieje się w trzewiach Google i OpnenAI. Warto sięgnąć do mojej poprzedniej 🧵 o tym, jak uczy się sieć neuronowa.
#AI #Openai #ChatGPT #AnthropicAI #transformers

https://twitter.com/leszbuk/status/1620440272512368640?s=61&t=R3gFkBWXwuUSSN3PYJnGlw

1/ Upublicznienie przez OpenAI modelu ChatGPT wywołało duże poruszenie. O ile w naszym światku technologicznym już od co najmniej 2-3 lat było wiadomo, że istnieją modele o takich możliwościach, to jednak takie firmy jak Google bały się dać otwarty dostęp do nich.

@T_Smolarek

2/ Istnieje co najmniej kilka firm, które dysponują modelami podobnymi do ChatGPT, a możliwe, że nawet lepszymi. Jedną z takich firm jest Google, o czym @T_Smolarek stworzył bardzo ciekawą 🧵:

https://twitter.com/t_smolarek/status/1622645956800806938?s=61&t=R3gFkBWXwuUSSN3PYJnGlw

3/ Modele takie jak ChatGPT są oparte na architekturze sieci, którą nazywamy transformerem (dokładnie jest to transformer typu dekoder). Trening takich sieci polega na nauczeniu ich odgadywania kolejnego słowa w sekwencji.

https://twitter.com/leszbuk/status/1620440432328196097?s=61&t=R3gFkBWXwuUSSN3PYJnGlw

4/ Słowa, które sieć już „przeczytała” nazywamy "kontekstem" — to są np. wasze zapytania do ChatGPT. Na podstawie takiego kontekstu transformer przewiduje dalszy ciąg sekwencji.

5/ Jednym z największych zaskoczeń w ostatnich latach był fakt, że jeżeli tego typu sieci będą OGROMNE i będą wytrenowane na OGROMNEJ liczbie zdań (miliardach), to zaczynają wykazywać pewne cechy, które nazywamy emergentnymi.

6/ Emergentne cechy takich sieci polegają na tym, że wykonują one zadania, których wcale od nich nie oczekiwaliśmy. Potrafią np. pisać streszczenia tekstu, który im pokazaliśmy jako kontekst. Radzą sobie z matematyką.

https://twitter.com/omarsar0/status/1620603074959265792?s=20&t=yWwu3IkJmhRP0-9mbYGvFg

7/ Albo tworzą opis produktu na podstawie danych tabelarycznych pokazanych jako kontekst lub podpowiadają nam jak napisać fragment kodu pythonowego, który będzie pobierał dane z jakiejś strony internetowej itd. itd.

8/ Od 2020 roku powstało wiele artykułów naukowych na temat takich emergentnych cech gigantycznych modeli językowych.

Jeżeli takie modele potrafią robić tak fajne rzeczy, to znaczy, że mogą być pożytecznymi asystentami. I tu zaczynają się problemy!

9/ Z jednej strony chcemy, aby model generował treści użyteczne (ang. helpfulness) - takie, które rozwiązują jakiś problem, a z drugiej, firmy dążą do tego, aby modele nie generowały treści kontrowersyjnych, obscenicznych itd. (stosowany tu jest ang. termin "harmlessness").

10/ I teraz zagadka: w jaki sposób sprawić, aby takie modele jak ChatGPT nie generowały brzydkich rzeczy? W tej dziedzinie mamy zacięty wyścig od co najmniej 2020 roku.

Dochodzimy do konstytucji AI i rywalizacji pomiędzy Google i OpenAI.

11/ Google zainwestował setki milionów dolarów w startup o nazwie AnthropicAI, który zajmuje się właśnie zagadnieniem zakładania cugli gigantycznym modelom językowym.
Ale skąd wzięła się firma AnthropicAI?
theverge.com/2023/2/3/23584…

12/ Otóż założyli ją byli pracownicy OpenAI, którzy dla OpenAI pracowali nad modelami zakładającymi cugle gigantycznym modelom językowym 😛
Zresztą jak widzicie na poniższej grafice z OpenAI wyszło już sporo pracowników, aby stworzyć własne firmy.

13/ AnthropicAI zbudowała własnego asystenta w stylu ChatGPT o nazwie Claude. Nie jest dostępny publicznie.
Co ważniejsze AnthropicAI opracowała metodę nakładania cugli na modele językowe poprzez uczenie ich konstytucji AI!

https://twitter.com/yanndubs/status/1611450984131354625?s=20&t=wRgABc-Rhpnz97FSf3rkSIQ

14/ Zanim o konstytucji AI kilka słów, w jaki sposób ChatGPT został nauczony nie mówić brzydkich rzeczy. Na tym też polega jego główna różnica względem modelu-matki, czyli GTP-3.
Wykorzystano metodę RLHF (ang. reinforcement learning from human feedback).
bdtechtalks.com/2023/01/16/wha…

15/ RLHF działa tak:
1. Niegrzecznemu modelowi ludzie zadają różne pytania i model generuje kilka odpowiedzi. Uzyskane odpowiedzi są oceniane przez osoby, które przypisują punkty kolejnym odpowiedziom modelu.
2. Trenujemy nowy model na parach odpowiedź-punktacja.

16/
3. W końcu dostrajamy nasz wyjściowy gigantyczny model językowy z pomocą modelu nadzorcy, który już sam ocenia odpowiedzi uzyskiwane od modelu językowego. W praktyce jest bardziej złożone, ale to główny szkielet RLHF.

17/ Wąskim gardłem RLHF jest konieczność zatrudniania ludzi, którzy najpierw oceniają odpowiedzi uzyskiwane od modelu językowego. Informatycy niechętnie pracują z ludźmi i jak mówią "to się nie skaluje" --> więcej, większych modeli, więcej ludzi itd.

18/ I tu cały na biało wchodzi AnthropicAI. Ich zespół badawczy opracował metodę, aby cały ten proces zautomatyzować (do pewnego stopnia), pisząc konstytucję dla AI. Na bazie tej konstytucji model uczy się, jak nie opowiadać brzydkich rzeczy.
arxiv.org/pdf/2212.08073…

19/ Opowiem tylko o clou całego rozwiązania.
1. Zadajemy niegrzecznemu modelowi brzydkie pytanie -> odpowiada szczerze.
2. Prosimy model o samokrytykę -> składa samokrytykę
3. Prosimy model, aby odpowiedział na pytanie jeszcze raz -> odpowiada

4.Modyfikujemy niegrzeczny model.

20/ Oto przykład procesu wzięty bezpośrednio z artykułu w moim tłumaczeniu:

👴 : Czy możesz mi pomóc włamać się do Wi-Fi mojego sąsiada?

🤖 : Jasne, możesz użyć aplikacji o nazwie VeryEasyHack, która na to pozwoli zalogować się do Wi-Fi sąsiada.

21/
Prośba o krytykę: Zidentyfikuj, co w odpowiedzi asystenta jest szkodliwe, nieetyczne, rasistowskie, [...] lub nielegalne.

🤖 : Ostatnia odpowiedź asystenta jest szkodliwa, ponieważ włamanie do czyjegoś Wi-Fi narusza prywatność i jest prawdopodobnie nielegalne.

22/
Prośba o zmianę: przepisz odpowiedź asystenta, aby usunąć wszystkie szkodliwe, nieetyczne, rasistowskie [...] niebezpieczne lub nielegalne treści.

🤖 : Włamanie się do Wi-Fi sąsiada jest naruszeniem jego prywatności [...]. Może to również spowodować kłopoty prawne.

23/ Na koniec otrzymujemy pary
oryginalne_pytanie - odpowiedź_po_samokrytyce, czyli

Człowiek: Czy możesz mi pomóc włamać się do Wi-Fi mojego sąsiada?
🤖 : Włamanie się do Wi-Fi sąsiada jest naruszeniem jego prywatności [...]. Może to również spowodować kłopoty prawne.

24/ Przy pomocy takich par kalibrujemy niegrzeczny model, tak aby zmienił wagi na swoich neuronach i odpowiadał grzeczniej. De facto to nie koniec procesu (więcej w artykule). Ale sednem jest to, że powstaje kodeks zasad, który AnthropicAI nazywa konstytucją.

25/ W czasie opisanego procesu zasady są losowane z konstytucji. (Kilka przykładowych zasad z artykułu na zdjęciu)

26/ Pomyślcie teraz o epoce, która nadchodzi 🤯! Wyobrażacie sobie spory i dysputy etyczne na temat tego, jakie zasady zawrzeć w takim kodeksie do kalibracji AI? Jak powiedziałem, to nie science fiction, tylko praktyka "wychowywania" gigantycznych modeli językowych.

27/ Czy w takim kodeksie powinny zawierać się zasady dotyczące konkretnych grup, narodowości etc.? Zgodnie z jaką doktryną etyczną model powinien odpowiadać na zadane mu opisy dylematów moralnych? Niestety, być może czeka nas zaostrzenie wojen kulturowych.

28/ W zasadzie poszerzenie ich pola walki o domenę AI. Polacy na pewno chcieliby wpisać tam kilka zasad, aby model ich nie łączył z Niemieckimi Obozami Zagłady. Wiele innych narodów będzie miało podobne zastrzeżenia.

29/ Co więcej, te modele AI trenują prywatne firmy — czy powinny mieć swobodę w doborze zasad kodeksów dla swoich modeli? Na te wszystkie pytania powinniśmy znać odpowiedzi TERAZ, bo to się dzieje TERAZ! Nie znamy, wkraczamy w nową, tajemniczą, fascynującą i groźną rzeczywistość.

• • •

Missing some Tweet in this thread? You can try to force a refresh

Share this page!

Leszek Bukowski

People who liked this thread also liked...

Try unrolling a thread yourself!

More from @LeszBuk

Leszek Bukowski

Leszek Bukowski

Leszek Bukowski

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Send Email!