מורה נבוכים לAI!
שמעתם על המאמר החדש שטוען ש"יש אופטימייזר חדש לטרנספורמר שעוקף את אדם במזעור הלוס"?
נמאס לכם מכל מילות הבאזז האלה?
בשרשור הארוך מידי הזה נעשה דיבאזינג לכל הבאז.
מוכנים? 25 מושגים ומונחים, שרשור ע-נ-ק לסופ"ש 🧵>> #פידטק#פידאטה#פידטכנולוגיה
1. דאטהסט ומודל.
המודל הוא בעצם הAI שפועל על הדאטהסט, שהוא הנתונים מהם הAI לומד.
המודל הוא ה"איך", הדאטהסט הוא ה"ממה" לומדים.
הדאטהסט הוא טבלה עם עמודות ושורות.
בדרך כלל מחלקים דאטהסט ל3 חלקים.
הראשון הוא סט האימון עליו המודל מתאמן. השני הוא >>
סט הולידציה, עליו תוך כדי תהליך האימון בודקים את ביצועי המודל, בלי שהוא מתאמן עליו.
השלישי הוא סט הבחינה, שנשמר בצד עד הרגע האחרון, לא נוגעים בו באימון. עושים עליו בדיקה פעם אחת בסוף כדי לייצג כמה המודל באמת למד.
השורות בדאטהסט הן הדגימות השונות, והעמודות מובילות אותנו ל: >>
2. פיצ'רים ומימדים.
פיצ'ר הוא מאפיין בודד של רשומה בבסיס נתונים.
פיצ'ר של רשומת "אדם" יכול להיות גיל, שם, כתובת מגורים, משקל, גובה או כל דבר אחר.
דאטהבייס יכיל הרבה רשומות בעלות פיצ'רים.
כשאני מתאר רשומה בעזרת 10 פיצ'רים, אני מתאר בעיה בה 10 מימדים.
בדרך כלל העמודה האחרונה היא >>
3. התיוג.
התיוג הוא משתנה המטרה אותו אני רוצה לחזות.
הוא יכול להיות רציף (טמפרטורה), קטגוריאלי (דגם) או משהו מופשט (תמונה, וקטור, סיום של משפט).
בעיות בהן המשתנה רציף נקראות בעיות רגרסיה.
בעיות בהן המשתנה קטגוריאלי נקראות בעיות קלסיפיקציה/סיווג.
לשאר אפשר להתייחס כ"משימת הלמידה".
4. למידה מונחית\Supervised Learning.
למידה מתוך סט נתונים מתוייג.
אם יש לי סט שמכיל המון עסקאות אשראי ותיוג לכל עסקה - "רמאות" או "תקין", אני יכול ללמוד לזהות הונאות בלמידה מונחית (סיווג).
אלגוריתמים פופולאריים - עצי החלטות, יערות אקראיים, רשתות נוירונים (בהמשך).
למידה לא מונחית?
5. למידה לא מונחית\Unsupervised Learning
למידה מנתונים חסרי תיוגים (כשאין).
מכונה גם אשכול\Clustering.
ניסיון לביצוע הפרדת הנתונים לקבוצות ולמידה מההפרדה הזו.
לדוגמא לקחת בסיס נתונים של קונים באתר קניות ולנסות למצוא תתי קבוצות בעלי מאפיינים דומים.
זו למידה חלשה יותר.
6. למידת חיזוקים/Reinforcement Learning.
שיטת AI בה קיים סוכן המקבל כקלט את מצב המציאות, מוציא כפלט את הצעד הבא ועליו מקבל פרס או קנס, ומזה לומד.
זאת הדרך בה לרוב מאמנים AI לשחק משחקים או לבצע משימות מורכבות, והדרך שבה אימנו את ChatGPT ממודל השלמת משפטים למודל שעונה בסגנון אנושי.
7. רשת נוירונים.
אלגוריתם שתכליתו לשערך פונקציה שמקבלת כקלט את הפיצ'רים ומוציאה פלט כלשהו, נניח התיוג, תמונה או משפט.
הרשת בנויה משכבות של "נוירונים".
כל אחד מהם מבצע פעולה מתמטית שנכנסת לנוירונים הבאים בשכבה הבאה.
כשרשת נוירונים היא ממש ענקית, זה כבר >>
8. למידה עמוקה (DL) ופרמטרים.
DL הוא תת תחום של לימוד מכונה שמתעסק ברשתות נוירונים גדולות מאד.
הן הרשתות שיכולות להוציא כפלט טקסט (ChatGPT) או תמונה (Dalle2, מידג'רני).
הפרמטרים הם ה"חלקים הזזים" ברשת העמוקה ואחראיים על היכולת להתמודד עם משימות מורכבות.
נוירון מורכב מכמה פרמטרים.
9. פונקצית לוס/Loss.
פונקציה שצריך להגדיר כחלק מתהליך אימון רשתות נוירונים.
המטרה של תהליך האימון הוא למזער אותה ככל שניתן.
היא מתארת את "כשלון" המודל על המידע אותו הוא לומד.
המזעור שלה - הוא בעצם הלמידה.
פונקציות מוכרות - MSE (סכום הריבועים הפחותים) והCross Entropy Loss.
10. הGradient Decent וקצב למידה.
האלגוריתם שבעזרתו ממזערים את הלוס.
הרעיון הוא לבצע נגזרת לפונקציית הLoss, ואם אתם זוכרים מהתיכון, עם נגזרות מוצאים מינימום.
באלגוריתם הזה מבצעים צעדים קטנים אל מזעור אותה פונקציית לוס.
בניגוד לפונקציות בתיכון, אי אפשר פשוט לגזור ולהשוות >>
לאפס.
השיטה הזו מחשבת לאיזה כיוון צריך להזיז את הפרמטרים ברשת כדי להקטין ככל הניתן את הלוס בהתאם לדאטה, ואז עושה צעד דיסנט קטן לכיוון הזה.
הגרדיאנט הוא נגזרת רב מימדית והמטרה היא לשנות הרבה פרמטרים בבת אחת, בכל פעם קצת כדי למזער את הלוס.
קצב הלמידה הוא ה"כמה קצת זזים" בכל פעם.
11. אפוק/Epoch.
מעבר של רשת הנוירונים על כל סט האימון תוך כדי ביצוע צעדי Gradient Descent.
ברוב המקרים יש צורך ביותר מאפוק אחד כדי למזער את הלוס.
שימו לב שלמרות שבגרף כתוב Test, הסט איתו בודקים דיוק במהלך האימון הוא סט הולידציה.
סט הבחינה נשאר בצד עד הרגע האחרון.
12. הMini Batch
דגימה אקראית של כמות קבועה וקטנה יחסית רשומות מתוך הדאטהסט. הדרך הרווחת לאמן רשת נוירונים היום.
מעבירים מיני באץ' ברשת ועושים צעד דיסנט אחד על כולו.
הוכח כמשפר את יעילות אימון הרשתות יותר מלהעביר אחת אחת, ופרקטי יותר מלהעביר את כל הדאטה ורק אז לחשב גרדיאנט בודד.
13. אופטימייזר.
מימוש מחוכם של Gradient Descent.
יש כל מיני דרכים למימוש הפעולה שנקראת Gradient Descent, גם בה יש חלקים זזים.
אופטימייזר יקבע כיצד לבצע אותה.
האופטימייזר הכי פופולארי היום נקרא ADAM.
14. ארכיטקטורה של רשת נוירונים.
הצורה בה הנוירונים השונים מחוברים זה לזה, הכמות שלהם, מספר השכבות וכדומה.
משפיעה על היכולות השונות של הרשת ללמוד.
החיבור הסטנדרטי נקרא Dense, והוא פשוט מצב שכל הנוירונים בשכבה אחת מחוברים לכל הנוירונים בשכבה הבאה.
15. רשת קונבולוציה.
ארכיטקטורת הסטנדרט היום בעיבוד תמונה.
קונבולוציה היא פעולה מתמטית שמבוצעת על כל הפיקסלים בתמונה ומזקקת מהם מאפיינים כמו קצוות, צורות שחוזרות על עצמן וכדומה.
רשתות קונבולוציה מתחילות משכבות קונבולוציה, ואחריהן בדרך כלל שכבות Dense עד הפלט.
16. טרנספורמר.
רשת עמוקה מיוחדת שטובה במיוחד בעיבוד שפה, אך לא רק.
מכילה "ראשי Attention", שזו בעצם צורה מיוחדת של הרבה שכבות בהן הנוירונים מסודרים כך שהם יוכלו לנתח חשיבויות וקשרים בין מילים בטקסט. הטכנולוגיה שבבסיס ChatGPT וכל מודלי השפה.
מתחילים להשתמש בהם גם לעיבוד תמונה.
17. הRNN/LSTM - שתי ארכיטקטורות ששלטו בעיבוד סדרות לפני הטרנספורמרים.
רשתות שבנויות בצורה בה אפשר להכניס לתוכן רצף ארוך של מידע והן ידעו להתייחס אל רובו.
אם יש לכל מטופל 100 רשומות עם 20 פיצ'רים שמתארים כל שלב בטיפול, לא ארצה רשת שמקבלת קלט ומוציאה פלט, אלא מתמודדת עם כל הסדרה.
18. שיכון\Embedding.
תהליך בו אנחנו ממירים קלט שאיננו במספרים למספרים בצורה משמעותית.
לדוגמא, מחקר בשם word2vec יצר ייצוג מספרי (וקטור) לכל מילה, בצורה שבה
King-man+woman=king.
שיכון מתבצע על ידי העברה בתוך רשת נוירונים ושימוש במספרים שבשכבות הפנימיות כשיכון עצמו.
19. עצי החלטות, יערות אקראיים ובוסטינג.
עץ החלטות הוא אלגוריתם שמפצל את הדאטה שוב ושוב, כל פעם לפי הפיצ'ר הכי יעיל כדי לבצע סיווג או רגרסיה.
בסוף מתקבלת צורה של "עץ" שאפשר ללכת לאורכו ובכך לבצע את המשימה בצורה מאד ברורה ומוסברת.
יער אקראי הוא בעצם ערבוב של המון עצים שאומנו >>
קצת אחרת, כדי לייצר מודל "מגוון" עם הרבה דעות.
העצים מצביעים והרוב קובע.
גרדיאנט בוסטינג, או רק בוסטינג, היא שיטה בה מערבבים הרבה עצים "חלשים" ליצירת מודל חזק בדרך יותר מתוחכמת מסתם לבצע הצבעה של הרוב קובע. יש מיליון וריאציות איך לבצע את זה.
המוכרות - XGBoost, LightGMB, Catboost.
21. היפר פרמטרים\Hyper Parameters
שימו לב - שונה מ"פרמטרים"!
המספרים שקובעים את הצורה וצורת הפעולה של מודל לימוד המכונה.
פה נבין מדוגמא, הנה דברים שהם היפר פרמטר: ברשתות, מספר הנוירונים בכל שכבה, מספר השכבות, סוג השכבות, קצב הלימוד. בעצים - הגבלת עומק העץ, הנוסחה שלפיה >>
מחליטים איך לפצל את הדאטה.
בעצם ההיפר פרמטרים הם כל ההחלטות שצריך לקבל לפני שמריצים את המודל.
הם הכפתורים על לוח הבקרה שצריך ללכוונן לפני שלוחצים "שגר".
המציאה של ההגדרה הנכונה שלהם היא בד"כ אמפירית בניסויים, לא בגלל שיש תאוריה ענפה מאחורי מה כל דבר צריך להיות.
22. בעיות הOverfitting/Underfitting
מודל פשוט מידי לא יצליח לפתור את הבעיה.
מודל מסובך מידי יחבר את הנקודות בצורה OVER מתאימה ולא יצליח ללמוד להכליל, כלומר להתמודד עם מידע חדש שהוא לא ראה (למרות 0 טעות באימון).
אין דרך חד משמעית לדעת מראש איך לבנות נכון מודל.
ניסוי וטעיה.
23. הPrompt Engineering.
מודלי שפה אמורים להיות נגישים בשפה יום יומית. הגיעו חכמולוגים וגילו שאם הם מדברים איתם (=כותבים Prompt) בצורה מאד ספציפית, מקבלים תוצאות טובות יותר.
זה לא הנדסה. זה שם מפוצץ ללמצוא את הטקסט הכי מתאים.
נכון גם למודלים שמייצרים תמונות (Dalle2, מידג'רני וכו)
24. מודלי דיפוזיה\Diffusion Models.
אלה המודלים שמייצרים תמונות.
עובדים במשימה של "הרעשה" וניסון להחזיר את התמונה לקדמותה.
בשילוב עם טרנספורמרים, הם לומדים רעש שמייצג סוגים שונים של תמונות ויכולים לערבב אותן לפי דרישה.
הבסיס לכל טכנולוגיית התמונות שאנחנו מופגזים בה באופן מוגזם.
25. מדען נתונים.
מדען נתונים הוא מי שצריך להכיר את כל היתרונות, החסרונות, המגבלות והחוזקות של כל הכלים האלה, להסתכל על בעיה בעיניים ולחקור. להבין מה מתאים, איך מתאים, איך ליישם נכון ואיך למנוע מצבים של "הצלחה באימון וכישלון בקרב".
האלגוריתמים האלה רחוקים מלהיות Plug And Play >>
וכל זה בלי להתחיל לדבר על לפתח אותם, לשדרג אותם ולחשוב על רעיונות חדשים.
המון מהרעיונות שהצגתי פה הגיחו לעולם ב10-15 שנה האחרונות, זה מדע ממש חדש.
כל רעיון כאן נאבק על מקומו, זה התחיל ב20, עלה ל25 וקיבלתם עיתון.
דברים שלא נכנסו: PCA, VAE, GANs, EDA, Transfer Learning >>
ועוד המון שבטח אתחרט עוד דקה שלא פה.
ו.. זהו!
וואו, איזה שרשור לסופ"ש.
מקווה שנהנתם.
רוצים לא לפספס אף שרשור שלי?
בואו לערוץ הטלגרם השקט, תקבלו התראה כל פעם שעולה שרשור חדש! linktr.ee/tsoofbaror
אם זה השרשור הראשון שלי שאתם קוראים, היי!
מזמין אתכם לחקור איתי את הקישקע של הAI,
כל פעם בדרך אחרת.
זה הזמן לעקוב אחרי: twitter.com/tsoofbaror
מזמין אתכם לרטווט ולהגיב אם אהבתם,
ולהתעלם לגמרי אם השתעממתם. 😍
King-man+woman=Queen!!!
• • •
Missing some Tweet in this thread? You can try to
force a refresh
הכוח של GPT o1, סדרת המודלים החדשה של OpenAI.
המודלים האלה, שכונו פנימית Strawberry, אמורים להיות מודלים שמתמחים ב-Reasoning.
אבל איך בודקים דבר כזה?
איך נראה Reasoning?
אנסה לתת פה כיוון לאיך אני רואה את זה, ולמה אני חושב שהמודלים האלה הם אולי תחילת הדרך למהפכה 🧵>>
1. אני מפרש הפעולה הזו שנקראת Reasoning כיכולת שלנו לקחת בעיה ולהבין איזה ידע מקדים צריך לבנות על מנת לפתור אותה, לאסוף את הידע המקדים ורק אז להגיע לתשובה.
בשאלה המפורסמת ״כמה פעמים האות r מופיע במילה Strawberry״ רוב המודלים טועים בין היתר, גם בגלל זה.
בגלל שהתשובה שלהם >>
2. היא הסתברותית נטו, אין להם את תהליך ה״בניה״ של הידע כדי לענות: פירוק המילה לאותיות שלה קודם כל, ורק אז ספירה של כל האותיות, אחת אחת.
את זה בדיוק o1 מנסה לפתור. בשיטת אימון שOpenAI לא חושפים, המודל לא ״עונה״, הוא קודם כל מבסס את כל פרטי הידע הנחוצים, מנתח אותם ורק אז מרכיב >>
טוויטר יקר - עזרו לנו להקים בית לפראמדיקים בצה״ל.
(אמ;לק: הקמנו עמותה ואנחנו מגייסים).
הפעם אני הולך לספר לכם על התפקיד שלי בסדיר ובמילואים, ועל המסע לתת לאנשים כמוני בית, ליווי וקהילה.
בבקשה - שתפו את הפוסט ועזרו לנו להגיע ליעד.
תנו לי דקה להכיר לכם אותנו 🧵 >>
1. נתחיל בהתחלה, הנה הלינק לתרומה לעמותה (רשומה ומוכרת לצורכי מס כמובן).
2. פראמדיק וחובש זה לא אותו דבר.
חובש קרבי הוא לוחם. הם עוברים מסלול, יוצאים ל3 חודשים קורס חובשים בבה״ד 10 וחוזרים ליחידות.
הפראמדיקים הם יצורים אחרים לגמרי. התפקיד הומצא עקב מחסור - מחסור ברופאים.
פעם על אמבולנס היו רופא ואחות.
אבל מה לרופא שיודע לקרוא רטנגן ובדיקות דם >>
רק מוודא שאתם מעודכנים במה שקורה:
קלוד בדרך להביס את GPT בקרב המפתחים.
אתם אולי משתמשים בChatGPT (או קלוד) דרך ממשק אינטרנטי, אבל מאחורי הקלעים יש שוק פעיל מאד של מוצרים שמשתמשים במודלים האלה.
סקירה קצרצרה 🧵>>
1. סיכום טקסט, מענה אוטומטי ואפילו שירות לקוחות - יש המון מוצרים שנבנים סביב מודלי שפה.
עד כה, 90% מהם היו או מבוססי OpenAI, או מבוססים על מודלים פתוחים כמו Llama/Mistral.
מה שקרה הוא שOpenAI נתנו באופן כמעט בלעדי דרך קלה להחריד לגשת למודלים שלהם דרך קוד.
תראו בתמונה. >>
2. עשר שורות בקושי ואפשר לגשת למודל AI אימתני.
על בסיס זה נבנו עשרות אם לא מאות סטארטאפים שמנסים להפיק ערך ממכונת המילים הזו.
כמו שאמרתי, עד כה OpenAI שלטו בשוק הזה באופן כמעט בלעדי.
המודלים האחרים היו סוג של "התפשרות" למי שרוצה לעשות איזה אימון יחודי בעצמו. ממש לא הסטנדרט >>
על תקרת הזכוכית של מהפכת הGenAI הנוכחית.
האם אנחנו רגע מGPT7 שיקנה בשבילנו מניות בבורסה וSORA שתחליף את הוליווד?
כנראה שלא. ממש לא.
תוהים איך יראה העתיד?
קחו אוויר, שימו בBookmark אם צריך - שרשור ארוך, אבל אחד שאסור לפספס 🧵 >>
1. ההתקדמות בAI מסחררת. ליטרלי מסחררת.
הסחרור מתודלק ע״י כל סלבס הAI על הפלנטה. יש לזה שתי סיבות עיקריות, ואף אחת מהן היא לא וודאות לגבי העתיד:
הבאזז מאפשר לגייס הרבה מאד כסף,
והאנשים האלה באמת באמת *רוצים* להצליח, מחשבה-מייצרת-מציאות.
השאלה: הם המציאות מתכתבת עם הבאזז? >>
2. בשרשור הזה אני רוצה לנסות לצמצם את הסחרור, ולנסות לחשוב ריאלית איך העתיד הולך להראות.
רשימת עובדות 1#:
גם למשתמשים משלמים, יש עדיין מגבלה של עד 50 הודעות כל 3 שעות
על GPT4. שנה אחרי שהוא שוחרר.
לקלוד - Opus החדש, גם במנוי PRO, יש מגבלה של 100 הודעות ב8 שעות במקרה הטוב. >>
בשקט בשקט, אילון זרק פצצה הלילה.
השבב המוחי הראשון הושתל באדם בריא, שבב חיבור בין הטכנולוגיה למוח.
האפליקציה הראשונה לשבב, איך לקרוא, תיקרא ״טלפתיה״ (Telepahy) ותיועד לאנשים שאיבדו את היכולת להזיז את הגפיים.
לאט לאט, הכל מתחבר >>
המונח המטורף כאן הוא הBrain Interface.
האמת, זה ממש אינטואיטיבי. הדרך שלנו לתקשר עם הטכנולוגיה היא דרך מתווך. יותר נכון מתווכות - הידיים והאצבעות שלנו.
המוח שולח שדר אליהן, הן מעבירות את השדר למכשיר שבתורו מחזיר שדר שנקלט בעיניים או באוזניים שלנו - וחזרה למוח.
המשימה של >>
ֿֿ
ניורולינק היא החלום הרטוב של כל קונספירטור מצוי.
השתלת שבב במוח שיחסוך את המתווכות, ויאפשר לנו לתקשר עם הטכנולוגיה שלנו בכוח המחשבה.
נשמע בדיוני, אבל על פניו - הסיגנל 100% נמצא שם במוח.
מה שצריך הוא לחלץ אותו ולהשתמש בו, ״זה הכל״.
שבב. ממש שבב. >>
שמעתם על גאדג׳ט הAI החדש?
גם אני.
הרמתם גבה?
גם אני.
אז באיחור של שבועיים, בואו נדבר רגע על הדבר הזה.
קשקוש, או העתיד? 🧵>>
(אה כן, אם שמתם Bookmark - תוסיפו איזו הקלקת לייק, זה סופר עוזר לי 🥰)
1. נתחיל בטכני.
מדובר על מכשיר קטן בעלות 199$ שמתפקד קצת כמו אלכסה, סירי או גוגל אסיסטנט.
המסך הוא מסך מגע, יש בו גם סוג של גלגלת אנלוגית ומצלמה 360 מעלות נשלפת כדי שהטמגוצ׳י הזה יוכל גם לראות את העולם.
למכשיר קוראים r1, או בשמו המלא כולל החברה שמייצרת אותו: rabbit r1 >>
2. הרעיון, אם לא ראיתם את הדמו הארוך, הוא שכל התקשורת איתו מילולית.
״תזמין לי אובר למחר״, ״תמצא לי חופשה, רכב ומלון בלונדון במרץ״.
הוא ישלח ״ארנב״ לרשת, יחפש, יזמין ויתן לכם לאשר.
הוא יתפקד גם כChatGPT קולי, תשאלו שאלה, הוא יענה.
זמן המענה קצר להחריד. הם מדברים על פחות מחצי >>