התגלית ששברה את עולם הבינה המלאכותית (והסטטיסטיקה) התרחשה ב..
2018?
כן. בערך 5 שנים.
היום נדבר על התופעה המוזרה המכונה Double Descent, שהותירה את גדולי המדענים פעורי פה.
קחו אוויר, ובואו איתי להבין מה קרה שם, כמובן ללא צורך בידע קודם 🧵 #פידטק#פידאטה#בינה_מלאכותית
>>
1. נתחיל בלדבר על מודל ה"בינה המלאכותית" החשוב ביותר שידוע לאנושות: הממוצע.
כן. הממוצע.
מה אנחנו מנסים להשיג בבינה מלאכותית?
במשפט, למזער את שגיאות המודל בביצוע משימה כלשהי. אם המשימה היא לחזות גבהים של סטודנטים, המודל הכי פשוט שיתן את השגיאה הנמוכה ביותר הוא הממוצע. >>
2. הממוצע מזקק בתוכו אינפורמציה על כל הקבוצה בפרמטר יחיד. הוא לא לומד את גבהי הקבוצה בע"פ, נכון? נכון, מלבד מקרה אחד.
מה הוא?
טוב, זה קל - כשיש חבר אחד בקבוצה.
הממוצע "למד בעל פה" את המידע שעליו הוא התאמן. אין הכללה, רק שינון. >>
3. האנלוגיה הנחמדה הזו עובדת גם כשהמודל כולל יותר פרמטרים.
מודל רגרסיה פשוט, y=mx+n, כולל שני פרמטרים – m וn. אם ניתן לו רק 2 תצפיות – בינהן עובר קו ישר אחד, הוא ילמד אותן בעל פה.
מזהים את הדפוס?
הבעיה עם הכללה היא כזו: ככל שהמודל יותר מסובך, בעל יותר "חלקים זזים" >>
4. כלומר פרמטרים, יש יותר סיכוי שהוא ילמד בע"פ את המידע שעליו הוא התאמן ולא יכליל.
וזה אומר שכשנציג לו דוגמאות חדשות – הוא יכשל.
לא משנה אם הוא רגרסיה או חיזוי מזג אוויר או מודל שפה.
העקרון הסטטיסטי הזה ליווה אותנו במשך עשורים.
מודלים מורכבים נוטים "להסביר יותר מידי" וכושלים. >>
5. אפשר לראות את זה בגרף (1) חשוב! לא לדלג.
לוקחים שני סטים של נתונים, אחד לאימון ואחד לבחינה. מאמנים מודל מורכב על סט האימון – נכשל במבחן.
מאמנים מודל פשוט יותר – לא נכשל במבחן.
דוגמא קלילה של רגרסיה בתמונה (2). מה לדעתכן מתאר יותר טוב את המציאות? ברור שהמודל הפשוט. >>
6. עד כאן טוב ויפה. שנים על גבי שנים זאת הייתה הקונספציה. גדול זה רע, פשוט זה טוב!
מה קרה ב2018?
סדרת ניסויים הראתה דבר מדהים – אם ממשיכים את הגרף (1) שבציוץ הקודם עוד ימינה, פתאום יש נפילה סופר חדה.
המודל הגרוע, המדקלם כמו תוכי – פתאום לומד.
ויותר טוב מהמודלים הפשוטים. >>
7. מה? מה קורה כאן?
המודל משתפר.. משתפר.. משתפר.. הופ פתאום משנן ונהיה גרוע.. גרוע יותר.. גרוע יותר... הופ משהו קורה המודל סופר חכם!
מה?!
כן. דמיינו מה עבר בראש של החוקרים שהם התחילו לראות תוצאות כאלה.
זה קצת כמו לגלות שבמהירויות גבוהות חוקי הפיזיקה פתאום עובדים אחרת.. >>
8. בהינתן העובדה המוזרה הזו, בואו נדבר על רשתות נוירונים.
לרשתות נוירונים מיליארדי פרמטרים.
מיליארדים.
היינו מצפים שהן יהיו ממש גרועות בהכללה – אבל זה לא המצב.
הן נפלאות, למרות שלפעמים יש בהן הרבה יותר חלקים זזים מאשר דוגמאות אימון. >>
9. דמיינו שהיינו יכולים לתת לקו רגרסיה 2 נקודות והוא היה מצליח להבין מהן את התופעה במלואה, עם טעות מנימאלית.
זה נוגד את האינטואציה בכל צורה.
רשתות נוירונים עצומות, הרבה יותר עצומות מכל בסיס הנתונים – לא לומדות אותו בע"פ ומצליחות להכליל.
למה?
לא לגמרי יודעים, אבל הנה השערות >>
10. כשהמודל לומד בעל פה את כל הדוגמאות שהוא מקבל, ולא משנה אם זה מודל שפה שלומדים מילים, מודל שלומד לסווג תמונות או כל מודל אחר, הוא עדיין צריך למלא "חללים" שנמצאים בין הדוגמאות שאנחנו נותנים לו.
אם אימנתי מודל רגרסיה על המספרים 1,2,4,5 – הוא יצטרך לנחש מה התוצאה של 3. >>
11. מודל מסובך שלומד בע"פ את בסיס הנתונים, נוטה "לחבר" את הנקודות בצורה מאד גסה.
הוא מנצל את כל הפרמטרים שלו כדי לשנן, ולא מחבר את הנקודות בצורה חסכונית - זאת הדרך הכי קלה להגיע לשגיאה 0.
זאת סיבה עיקרית לביצועים הגרועים בחיזוי על דברים שהוא לא ראה לפני. >>
12. אומרים שמודלים סופר מסובכים (בניגוד לסתם מסובכים) עושים את החיבור הזה (בין הנקודות) יותר טוב, ולמרות שהם לומדים את הנתונים בע"פ הם עדיין מצליחים לבצע הכללה.
הסבר נוסף הוא שכשלמודל יש המון פרמטרים, יש לו המון דרכים להגיע לשגיאה 0 על סט האימון.
זה מביא לזה שבעצם המודל יהיה >>
13. רגיש פחות לשינויים לעומת מודל גדול שמשתמש בכל הפרמטרים שלו כדי ללמוד את כל הדאטה.
הסברים מעפנים, אני יודע, אבל זה רוב מה שיש לנו.
כמובן שזה ממש על קצה המזלג.
חשוב להגיד שהתופעה הזו לא בהכרח מתרחשת בכל בעית ML.
אנחנו פשוט לא ממש יודעים עליה הרבה, והיא בחזית המחקר.
14. הדבר ההזוי כאן הוא שכמו שהזכרתי, יש כאן קצת ניוטון-איינשטיין.
החוקים של ניוטון עבדו עד רגע מסויים, ואז במצבי קיצון נשברו.
גם כאן המודלים שלנו גדלו למימדי ענק וגילינו שכל הבסיס שלנו לא מדויק.
דברים עצומים מתנהגים אחרת, לא רק בפיזיקה. >>
15. אם תשאלו אותי, זה פשוט מרתק.
אנחנו עדים לתקומה של תחום של במדע, וזה פאקינג מרגש.
אם מישהו מכם יודע לתת עוד איזה אינפוט על התופעה הזו - אשמח לשמוע.
נתראה בשרשור הבא :)
היום נצלול אל מעמקי המוח של הAI.
תכינו את עצמכם לInception של עולם הGPT, כי לפני שלושה ימים הבינה המלאכותית התחילה להסביר את עצמה.
לא צריך (אך מומלץ) ידע מוקדם, רק הרבה סקרנות וקצת יראת כבוד.
שרשור על איך לומדים על AI עם AI, קדימה 🧵 >> #פידטק#פידאטה#פידטכנולוגיה
1. קודם כל, רקע במודלי שפה (LLM).
אם אין לכם שמץ מה קורה שם בקישקע של ChatGPT, מזמין אתכם לקפוץ לקרוא את השרשור הזה.
לא מאסט, אבל ממש-מאד-ממש מומלץ.
זה יעשה סדר, כי נכנס פה לאקטואליה.
נמשיך >>
2. רשתות נוירונים של מודלי שפה הן רעיון די מטורלל. מיליארדי פעולות מתמטיות שבסוף מתרגמות לאיזה משפט.
אבל איך?
מה קרה בבפנוכו שהביא את המודל להוציא משפט כזה? האם המודל שלנו מוטה?
גזען?
במילים אחרות - האם הוא "מיושר" (Aligned) עם הערכים האנושיים?
טוב, כולם מדברים על זה, אז הגיע הזמן לשרשור אקטואלי.
מסמך מודלף של גוגל: "אין לא לנו ולא לOpenAI יתרון אמיתי".
בואו נבין ביחד את המשמעות של המשפט הזה, ולמה (אולי) אנחנו בתחילתה של מהפכה בסדר גודל של הWWW.
דיסקליימר: מאמר מודלף שלא ברור מקורו.
בואו איתי >> semianalysis.com/p/google-we-ha…
1. קוד מקור הוא לא כמו ציור.
ציור אפשר להעתיק או לצלם. תוכנה לעומת זאת, גם אם יש לי אותה על המחשב, לא ניתן ברוב המוחלט של המקרים להנדס לאחור ולקחת לה את הקוד לשימוש שלנו.
בגלל זה ChatGPT הוא רק של OpenAI, ואת Bard אני לא סובל אז לא אגיד עליו כלום.
אמרנו את זה, נמשיך >>
2. גוגל בגדול אומרים: "אנחנו לא בכיוון של לנצח במירוץ הזה, אבל גם לא OpenAI".
המלחמה הגדולה שלהם היא בקוד הפתוח (Open Source). אלגוריתמים שזמינים לשימוש הציבור, אם למחקר או ממש לשימוש מסחרי.
הם בחינם ובאינטרנט, ומשודרגים ע"י הקהילה שרוצה לעשות טוב לאנושות >>
משתגעים להבין מה זה כל הGPT הזה?
אני במילואים, עייף וחסר יכולת להשקיע במטלות שלי, אז ברור שזה הזמן לכתוב שרשור.
היום נכנס לנבכי הLLM - "מודלי שפה ענקיים" וננסה להבין מה קורה בקישקע שלהם ואיך הם עובדים כלכך טוב.
כרגיל, לא צריך ידע במתמטיקה או מחשבים. #פידטק#פידאטה יאללה >>
1. נתחיל בהתחלה עם כותרת מפוצצת.
הGPT הוא חלק מקבוצת אלגוריתמים בשם LLM - Large Language Models שמבוססים על רשתות הנוירונים הקלאסיות (NN) עם ים שדרוגים.
אם NN היא קיר, אז LLM הוא סוג של עזריאלי.
אם הרעיון של NN זר לכם, מזמין אתכם לשרשור שלי בנושא >>
1.5. אמ;לק קצר לפני שנתחיל: הLLMs לוקחים את הטקסט, ממירים אותו למספר, חוזים מה המספר הכי סביר הבא, ממירים את המספר הכי סביר הבא לטקסט, והופ - קיבלנו תשובה מChatGPT. עכשיו נרד לעומק של המכונה המשומנת הזו.
איך זה קורה? >>
לקח לי יותר מידי זמן לכתוב את השרשור הזה, אבל אחת ולתמיד:
"רשת נוירונים", מה זה ואיך זה עובד.
בגלל (בזכות!) @StavKislev רוב העוקבים שלי מ #פידרפואה, אז כל האנלוגיות כאן יהיו מהתחום. #פידאטה , #פידטק 🧵
(כרגיל - אין צורך בידע במתמטיקה או במחשבים. או ברפואה.)
(1/16) נתחיל רגע בשאלה פילוסופית - מה המשמעות של הביטוי "ליישם ידע"? מה התוצר של "ללמוד"?
למידה היא כמו מפעל.
אל מפעל כתר נכנסים בלוקים של פלסטיק, ויוצאים כיסאות מהודרים ומוכנים לקטטה. משהו קורה שם באמצע במפעל של כתר.
כשרופא מאבחן מחלה, הוא מכניס אל תוך המוח
(2/16) את כל מדדי החולה - ופולט החוצה "עגבת"!
רשת נוירונים היא ניסיון לחקות את מה שקורה שם באמצע, בשפה שמחשב מבין.
הרשת מקבלת המון מספרים, ומוציאה החוצה המון (או מעט) מספרים. כן, זה עד כדי כך פשוט. יש שלושה עניינים מעניינים:
מה הם המספרים האלה, ואיך יוצרים אותם ומה משמעותם.
תוך כדי למידה חשבתי לעצמי: "היי, במקום לסכם, למה שלא אכתוב שרשור?".
אז הנה, היום נדבר על רשתות נוירונים גרפיות (GNNs).
מה זה גרף, למה זה טוב, למי זה עוזר ואיך זה קשור למלחמה בבוטים בטוויטר ול #בינהמלאכותית?
בואו נגלה #פידאטה, #פידטק🧵
(כרגיל - אין צורך בידע במתמטיקה או מחשבים)
(1/14) נתחיל בהתחלה. בכיתה ז' פתאום נכנסות אותיות למתמטיקה. לא רק פעולות חשבון, אלא איזה X מוזר שצריך למצוא. גרף הוא רעיון מתמטי כמו זה, שפשוט מגיח לחיים בשלב כלשהו באוניברסיטה. כמו שהX הזה הוא ציור שבא לתאר רעיון, הגרף הוא ציור של נקודות שמחוברות זו לזו, גם הן מתארות רעיון.
(2/14) טוויטר הוא סוג של גרף - כל נקודה ("צומת") היא צייצן, ואפשר לחבר אותה לכל מי שעוקב אחריה בחץ ("קשת"). שתי נקודות מחוברות נקראות "שכנות". אפשר להשתמש בחצים כדי לתאר קשר חד צדדי, או בקו לקשר דו"צ. גרפים מתארים המון תופעות בעולם שלנו, לא רק רשתות חברתיות. מולקולה היא סוג של
(1/14) על הקונץ של @ClalitResearch למלחמה בקורונה עם #בינהמלאכותית.
בשרשור הקודם נחשפתי לעובדה המדהימה (!) שכבר במרץ 2020 (!!) היה לקופ"ח כללית מודל מתפקד לחיזוי תמותה של חולי קורונה. מה אפשר ללמוד ממנו? #פידאטה וקצת #פידרפואה על עצי החלטות ויערות 🧵
(2/14) נתחיל באמ;לק רציני: לכללית היה כבר מודל חיזוי לשפעת, אותו הם לקחו ובו ביצעו התאמות לקורונה. זהו, סיימנו, תודה. סתם. האמת שמה שאני באמת רוצה לספר לכם הוא מה עומד בבסיס מודל השפעת. תופתעו לגלות כמה זה פשוט: עץ החלטות (או נכון יותר - יער).
(3/14) עץ ההחלטות הוא אחד מעמודי התווך של עולם ה #AI, והוא עושה משהו ממש הגיוני: הוא יודע לקחת פיסת מידע (נתוני חולה, תמונה וכו) ולשאול עליה המון שאלות. לשאלות תשובות קטגוריות. אפשר כן\לא, אבל גם נגיד על "גיל?" אפשר לענות "מתחת ל30"\"בין 30 ל60"\"מעל 60"