היום לא נדבר על ה"איך", נדבר על ה"למה".
תהיתם פעם למה רשתות נוירונים עובדות?
אם לא, ידעתן שהתשובה קצת מדכאת?
אז למה #בינהמלאכותית עובדת, ולמה דווקא רשתות נוירונים.
כמובן בלי צורך בידע קודם, קדימה 🧵 >> #פידטק#פידאטה#פידטכנולוגיה
1. אז למה אני מדוכא?
מאחורי רשתות הנוירונים נמצאת האמונה שכל מה שאנחנו עושים הוא בסוף.. פונקציה.
כן. אלה שלמדנו עליהן בתיכון, אלה שגזרנו, אלה שחישבנו להן אינטגרל. הפרק הזה בבגרות.
הבינה האנושית היא פונקציה.
בChatGPT, הx הוא הטקסט שאתם מכניסים. f(x) היא התשובה שלו.
2. זאת תפישה פילוסופית. זה אומר שכל תוצאה אפשר למדל כתרגיל מתמטי מורכב של הסיבה שגרמה לה.
הפונקציות המדוברות הן בדרך כלל פונקציות סטטיסטיות.
למה סטטיסטיות?
כי אם תשאלו אותי "מה נשמע" כשאובייקטיבית הכל נפלא בחיי, לפעמים אענה "הכל טוב", לפעמים "סבבה" ולפעמים "אחלה" >>
3. האנושיות שלי לא דטרמיניסטית.
גם הטבע לא.
אבל פילוסופית הML אומרת שקיימת, אי שם בעולם האידאות של אפלטון, פונקציה שמתארת את התפלגות התשובות שלי לשאלה "מה נשמע".
לכל אחד מאיתנו יש פונקציה כזו.
אוהו!
ואם אפילו את ספת הפסיכולוג אפשר למדל באמצעות פונקציה, למתמטיקה כלי עבודה >>
4. נפלאים לשערך אותה.
מילת המפתח היא "לשערך".
אני לא יכול למצוא את אותה פונקציה שיושבת אצלי במוח, זו שכל פעם עונה תשובה אחרת לשאלה "מה נשמע".
אני כן יכול לתת לה שערוך.
משהו קרוב מספיק.
כל מי שעוסק במדע יודע שככה אנחנו מתארים את המציאות - כל המודלים בפיזיקה, בכימיה, הכל מקורב! >>
5. איך נדע אם הדת החדשה, "הכל זה פונקציות", היא דת האמת?
טוב, הרבה פעמים הדרך שלנו להבין אם עלינו על האמת היא אם האמת עובדת.
אפשר להתווכח עד מחר על כוח המשיכה, אבל אם נקפוץ מהחלון נמות.
אם אנחנו טוענים שאפשר לשכנע אדם שהוא מדבר עם אדם אחר למרות שהוא בעצם אלגוריתם, אז גם הנפש >>
6. היא פונקציה שניתנת לשערוך. לרגע נניח שזה נכון.
ב1989 מתמטיקאי בשם George Cybenko הוכיח, מתמטית, משהו די מדהים:
אפשר, באמצעות רשת נוירונים גדולה מספיק, לשערך כל פונקציה ביקום.
(תחת כמה מגבלות שפחות רלוונטיות אלינו - מתמטיקאים, תסלחו לי).
אגב, בהמשך הוכח שהעובדה הזו >>
7. נכונה לרשת נוירונים שזקוקה לשכבה אחת בלבד (!). לא צריך אפילו עומק.
הקאץ'?
הוא לא הראה שום דרך לעשות את זה פרקטית.
נכון לכתיבת שורות אלו, אנחנו עדיין לא יודעים איך לעשות את זה.
אין לנו תאוריה שאומרת "בהינתן שזו הבעיה, זו רשת הנוירונים שתפתור אותה".
מי שקרא את השרשור >>
8. הקודם שלי, על Double Descent יודע - אנחנו בשלב במדע של ניסוי, טעיה ותהיה בנושא רשתות.
לכן, עם כל כמה שקשה להאמין. כל מודלי השפה הגדולים (GPT) הם שיערוך מורכב של פונקציה סטטיסטית על השפה האנושית.
ההנחה הזו, שהכל פונקציה, הוא מה שהביא אותם לידי קיום. >>
9. אז למה הבינה המלאכותית לא התפוצצה ב1989?
טוב, זה קל.
זה בסדר להגיד שאפשר לשערך את השפה האנושית עם רשת נוירונים, אבל הרשתות האלה עצומות וצריך כח מחשוב שלא היה אז להריץ אותן (אפילו לא לאמן. רק להריץ)
בנוסף, למדל רשת עם שכבה אחת יכול להיות תיאורטית אפשרי, אבל כדי להצליח >>
10. באמת לפתור משהו אמיתי עם שכבה אחת יתכן שצריך יותר נוירונים מאטומים ביקום.
ככה זה מתמטיקאים.
הלמידה העמוקה שפרצה לחיינו היא זו שהצליחה להפוך את התאוריה לפרקטיקה, והביאה איתה בעיות שעד שלא פתרו לאחרונה - הרשתות היו עוד בגדר מחקר בחיתוליו.
זה גם יהיה נושא שנדבר עליו בעתיד >>
11. אבל הנה הסיבה העיקרית שרשתות הנוירונים השתלטו על עולם הAI.
הן פשוט משערכות נפלאות לפונקציות - וזה כלי העבודה לדת שלנו!
חשוב להגיד - יש עוד הרבה כלים בעולם הAI שאינם רשתות, ועובדים יותר טוב במקרים מסויימים.
אבל בבעיות ה"אנושיות" - שפה, ראיה ממוחשבת, משחק - רשתות שולטות.
12. האם בעוד כמה שנים נחזה במודל שפה שבאמת נוכל לחשוב שהוא תבוני?
האם הגישה הזו של "הכל זה פונקציה" תביא אותנו לAGI - בינה מלאכותית "כללית", לא כזו שטובה במשימה אחת ספציפית?
יכול להיות שלתוצאות המדהימות שאנחנו רואים היום יש תקרת זכוכית >>
13. וכדי להגיע לבינה מלאכותית אמיתית נצטרך בכלל טכנולוגיות אחרות, לא משערכי פונקציות מאד מתוחכמים?
כרגע אנחנו רואים שגישת "הכל זה פונקציה" רק משתפרת בלמידה.
היא מבדילה בין אובייקטים, לומדת שפה, משחקת משחקים ועושה לא מעט מטלות אנושיות. כלומר, הטכנולוגיה עובדת >>
14. וכאמור, אם אפשר ליצור משהו תבוני בעזרת שערוך פונקציות - האם זאת בעצם תבונה, או שחסר לנו עוד איזה ספארק, עוד איזה קונספט מעבר למתמטיקה כדי ליצור את הHuman Touch הזה?
פה האנושות נחלקת לשניים.
אלה שמסתכלים על השאלה כפילוסופית, ואלה שכמדעית.
עוד לא בחרתי צד :)
מה דעתכן.ם?
לאמן GPT על המידע של סבא מושיק.. בלי לאמן אותו?!
נכון שתמיד רציתם ChatGPT שיוכל לענות על שאלות שקשורות לעבודת השורשים שלכם?
"היי, תגיד, איפה סבא מושיק נולד?"
כל זה בלי לאמן אותו על שום דאטה של שום סבא!
שרשור טכנולוגי קליל לשבת! 🧵 >> #פידאטה#פידטק#בינהמלאכותית
1. קודם כל, אם אין לכם שום הבנה איך מודלי שפה (LLM) עובדים מזמין אתכם קודם כל לקרוא את השרשור הקליל שלי בנושא, כי אני הולך להשתמש במילים כמו "קונטקסט" או "טוקן".
אעשה את המיטב להיות מובן גם בלעדיו, בכל מקרה. >>
2. מה הדרך הסטנדרטית לגרום למודל שפה לדעת דברים?
לאמן אותו על המידע הרלוונטי.
המודל מתאמן בשיטה של השלמת משפטים.
לוקחים את הדאטה, כל פעם חותכים באמצע ונותנים למודל לחזות את החצי השני.
התהליך עולה כסף, מצריך הבנה טכנית של כיצד מבצעים אותו בצורה נכונה, >>
התגלית ששברה את עולם הבינה המלאכותית (והסטטיסטיקה) התרחשה ב..
2018?
כן. בערך 5 שנים.
היום נדבר על התופעה המוזרה המכונה Double Descent, שהותירה את גדולי המדענים פעורי פה.
קחו אוויר, ובואו איתי להבין מה קרה שם, כמובן ללא צורך בידע קודם 🧵 #פידטק#פידאטה#בינה_מלאכותית
>>
1. נתחיל בלדבר על מודל ה"בינה המלאכותית" החשוב ביותר שידוע לאנושות: הממוצע.
כן. הממוצע.
מה אנחנו מנסים להשיג בבינה מלאכותית?
במשפט, למזער את שגיאות המודל בביצוע משימה כלשהי. אם המשימה היא לחזות גבהים של סטודנטים, המודל הכי פשוט שיתן את השגיאה הנמוכה ביותר הוא הממוצע. >>
2. הממוצע מזקק בתוכו אינפורמציה על כל הקבוצה בפרמטר יחיד. הוא לא לומד את גבהי הקבוצה בע"פ, נכון? נכון, מלבד מקרה אחד.
מה הוא?
טוב, זה קל - כשיש חבר אחד בקבוצה.
הממוצע "למד בעל פה" את המידע שעליו הוא התאמן. אין הכללה, רק שינון. >>
היום נצלול אל מעמקי המוח של הAI.
תכינו את עצמכם לInception של עולם הGPT, כי לפני שלושה ימים הבינה המלאכותית התחילה להסביר את עצמה.
לא צריך (אך מומלץ) ידע מוקדם, רק הרבה סקרנות וקצת יראת כבוד.
שרשור על איך לומדים על AI עם AI, קדימה 🧵 >> #פידטק#פידאטה#פידטכנולוגיה
1. קודם כל, רקע במודלי שפה (LLM).
אם אין לכם שמץ מה קורה שם בקישקע של ChatGPT, מזמין אתכם לקפוץ לקרוא את השרשור הזה.
לא מאסט, אבל ממש-מאד-ממש מומלץ.
זה יעשה סדר, כי נכנס פה לאקטואליה.
נמשיך >>
2. רשתות נוירונים של מודלי שפה הן רעיון די מטורלל. מיליארדי פעולות מתמטיות שבסוף מתרגמות לאיזה משפט.
אבל איך?
מה קרה בבפנוכו שהביא את המודל להוציא משפט כזה? האם המודל שלנו מוטה?
גזען?
במילים אחרות - האם הוא "מיושר" (Aligned) עם הערכים האנושיים?
טוב, כולם מדברים על זה, אז הגיע הזמן לשרשור אקטואלי.
מסמך מודלף של גוגל: "אין לא לנו ולא לOpenAI יתרון אמיתי".
בואו נבין ביחד את המשמעות של המשפט הזה, ולמה (אולי) אנחנו בתחילתה של מהפכה בסדר גודל של הWWW.
דיסקליימר: מאמר מודלף שלא ברור מקורו.
בואו איתי >> semianalysis.com/p/google-we-ha…
1. קוד מקור הוא לא כמו ציור.
ציור אפשר להעתיק או לצלם. תוכנה לעומת זאת, גם אם יש לי אותה על המחשב, לא ניתן ברוב המוחלט של המקרים להנדס לאחור ולקחת לה את הקוד לשימוש שלנו.
בגלל זה ChatGPT הוא רק של OpenAI, ואת Bard אני לא סובל אז לא אגיד עליו כלום.
אמרנו את זה, נמשיך >>
2. גוגל בגדול אומרים: "אנחנו לא בכיוון של לנצח במירוץ הזה, אבל גם לא OpenAI".
המלחמה הגדולה שלהם היא בקוד הפתוח (Open Source). אלגוריתמים שזמינים לשימוש הציבור, אם למחקר או ממש לשימוש מסחרי.
הם בחינם ובאינטרנט, ומשודרגים ע"י הקהילה שרוצה לעשות טוב לאנושות >>
משתגעים להבין מה זה כל הGPT הזה?
אני במילואים, עייף וחסר יכולת להשקיע במטלות שלי, אז ברור שזה הזמן לכתוב שרשור.
היום נכנס לנבכי הLLM - "מודלי שפה ענקיים" וננסה להבין מה קורה בקישקע שלהם ואיך הם עובדים כלכך טוב.
כרגיל, לא צריך ידע במתמטיקה או מחשבים. #פידטק#פידאטה יאללה >>
1. נתחיל בהתחלה עם כותרת מפוצצת.
הGPT הוא חלק מקבוצת אלגוריתמים בשם LLM - Large Language Models שמבוססים על רשתות הנוירונים הקלאסיות (NN) עם ים שדרוגים.
אם NN היא קיר, אז LLM הוא סוג של עזריאלי.
אם הרעיון של NN זר לכם, מזמין אתכם לשרשור שלי בנושא >>
1.5. אמ;לק קצר לפני שנתחיל: הLLMs לוקחים את הטקסט, ממירים אותו למספר, חוזים מה המספר הכי סביר הבא, ממירים את המספר הכי סביר הבא לטקסט, והופ - קיבלנו תשובה מChatGPT. עכשיו נרד לעומק של המכונה המשומנת הזו.
איך זה קורה? >>
לקח לי יותר מידי זמן לכתוב את השרשור הזה, אבל אחת ולתמיד:
"רשת נוירונים", מה זה ואיך זה עובד.
בגלל (בזכות!) @StavKislev רוב העוקבים שלי מ #פידרפואה, אז כל האנלוגיות כאן יהיו מהתחום. #פידאטה , #פידטק 🧵
(כרגיל - אין צורך בידע במתמטיקה או במחשבים. או ברפואה.)
(1/16) נתחיל רגע בשאלה פילוסופית - מה המשמעות של הביטוי "ליישם ידע"? מה התוצר של "ללמוד"?
למידה היא כמו מפעל.
אל מפעל כתר נכנסים בלוקים של פלסטיק, ויוצאים כיסאות מהודרים ומוכנים לקטטה. משהו קורה שם באמצע במפעל של כתר.
כשרופא מאבחן מחלה, הוא מכניס אל תוך המוח
(2/16) את כל מדדי החולה - ופולט החוצה "עגבת"!
רשת נוירונים היא ניסיון לחקות את מה שקורה שם באמצע, בשפה שמחשב מבין.
הרשת מקבלת המון מספרים, ומוציאה החוצה המון (או מעט) מספרים. כן, זה עד כדי כך פשוט. יש שלושה עניינים מעניינים:
מה הם המספרים האלה, ואיך יוצרים אותם ומה משמעותם.