Tsoof Bar Or Profile picture
Jun 2 33 tweets 13 min read Twitter logo Read on Twitter
מורה נבוכים לAI!
שמעתם על המאמר החדש שטוען ש"יש אופטימייזר חדש לטרנספורמר שעוקף את אדם במזעור הלוס"?
נמאס לכם מכל מילות הבאזז האלה?
בשרשור הארוך מידי הזה נעשה דיבאזינג לכל הבאז.
מוכנים? 25 מושגים ומונחים, שרשור ע-נ-ק לסופ"ש 🧵>>
#פידטק #פידאטה #פידטכנולוגיה Image
1. דאטהסט ומודל.
המודל הוא בעצם הAI שפועל על הדאטהסט, שהוא הנתונים מהם הAI לומד.
המודל הוא ה"איך", הדאטהסט הוא ה"ממה" לומדים.
הדאטהסט הוא טבלה עם עמודות ושורות.
בדרך כלל מחלקים דאטהסט ל3 חלקים.
הראשון הוא סט האימון עליו המודל מתאמן. השני הוא >> Image
סט הולידציה, עליו תוך כדי תהליך האימון בודקים את ביצועי המודל, בלי שהוא מתאמן עליו.
השלישי הוא סט הבחינה, שנשמר בצד עד הרגע האחרון, לא נוגעים בו באימון. עושים עליו בדיקה פעם אחת בסוף כדי לייצג כמה המודל באמת למד.
השורות בדאטהסט הן הדגימות השונות, והעמודות מובילות אותנו ל: >> Image
2. פיצ'רים ומימדים.
פיצ'ר הוא מאפיין בודד של רשומה בבסיס נתונים.
פיצ'ר של רשומת "אדם" יכול להיות גיל, שם, כתובת מגורים, משקל, גובה או כל דבר אחר.
דאטהבייס יכיל הרבה רשומות בעלות פיצ'רים.
כשאני מתאר רשומה בעזרת 10 פיצ'רים, אני מתאר בעיה בה 10 מימדים.
בדרך כלל העמודה האחרונה היא >> Image
3. התיוג.
התיוג הוא משתנה המטרה אותו אני רוצה לחזות.
הוא יכול להיות רציף (טמפרטורה), קטגוריאלי (דגם) או משהו מופשט (תמונה, וקטור, סיום של משפט).
בעיות בהן המשתנה רציף נקראות בעיות רגרסיה.
בעיות בהן המשתנה קטגוריאלי נקראות בעיות קלסיפיקציה/סיווג.
לשאר אפשר להתייחס כ"משימת הלמידה". Image
4. למידה מונחית\Supervised Learning.
למידה מתוך סט נתונים מתוייג.
אם יש לי סט שמכיל המון עסקאות אשראי ותיוג לכל עסקה - "רמאות" או "תקין", אני יכול ללמוד לזהות הונאות בלמידה מונחית (סיווג).
אלגוריתמים פופולאריים - עצי החלטות, יערות אקראיים, רשתות נוירונים (בהמשך).
למידה לא מונחית? Image
5. למידה לא מונחית\Unsupervised Learning
למידה מנתונים חסרי תיוגים (כשאין).
מכונה גם אשכול\Clustering.
ניסיון לביצוע הפרדת הנתונים לקבוצות ולמידה מההפרדה הזו.
לדוגמא לקחת בסיס נתונים של קונים באתר קניות ולנסות למצוא תתי קבוצות בעלי מאפיינים דומים.
זו למידה חלשה יותר. Image
6. למידת חיזוקים/Reinforcement Learning.
שיטת AI בה קיים סוכן המקבל כקלט את מצב המציאות, מוציא כפלט את הצעד הבא ועליו מקבל פרס או קנס, ומזה לומד.
זאת הדרך בה לרוב מאמנים AI לשחק משחקים או לבצע משימות מורכבות, והדרך שבה אימנו את ChatGPT ממודל השלמת משפטים למודל שעונה בסגנון אנושי. Image
7. רשת נוירונים.
אלגוריתם שתכליתו לשערך פונקציה שמקבלת כקלט את הפיצ'רים ומוציאה פלט כלשהו, נניח התיוג, תמונה או משפט.
הרשת בנויה משכבות של "נוירונים".
כל אחד מהם מבצע פעולה מתמטית שנכנסת לנוירונים הבאים בשכבה הבאה.
כשרשת נוירונים היא ממש ענקית, זה כבר >> Image
8. למידה עמוקה (DL) ופרמטרים.
DL הוא תת תחום של לימוד מכונה שמתעסק ברשתות נוירונים גדולות מאד.
הן הרשתות שיכולות להוציא כפלט טקסט (ChatGPT) או תמונה (Dalle2, מידג'רני).
הפרמטרים הם ה"חלקים הזזים" ברשת העמוקה ואחראיים על היכולת להתמודד עם משימות מורכבות.
נוירון מורכב מכמה פרמטרים. Image
9. פונקצית לוס/Loss.
פונקציה שצריך להגדיר כחלק מתהליך אימון רשתות נוירונים.
המטרה של תהליך האימון הוא למזער אותה ככל שניתן.
היא מתארת את "כשלון" המודל על המידע אותו הוא לומד.
המזעור שלה - הוא בעצם הלמידה.
פונקציות מוכרות - MSE (סכום הריבועים הפחותים) והCross Entropy Loss. Image
10. הGradient Decent וקצב למידה.
האלגוריתם שבעזרתו ממזערים את הלוס.
הרעיון הוא לבצע נגזרת לפונקציית הLoss, ואם אתם זוכרים מהתיכון, עם נגזרות מוצאים מינימום.
באלגוריתם הזה מבצעים צעדים קטנים אל מזעור אותה פונקציית לוס.
בניגוד לפונקציות בתיכון, אי אפשר פשוט לגזור ולהשוות >> Image
לאפס.
השיטה הזו מחשבת לאיזה כיוון צריך להזיז את הפרמטרים ברשת כדי להקטין ככל הניתן את הלוס בהתאם לדאטה, ואז עושה צעד דיסנט קטן לכיוון הזה.
הגרדיאנט הוא נגזרת רב מימדית והמטרה היא לשנות הרבה פרמטרים בבת אחת, בכל פעם קצת כדי למזער את הלוס.
קצב הלמידה הוא ה"כמה קצת זזים" בכל פעם. Image
11. אפוק/Epoch.
מעבר של רשת הנוירונים על כל סט האימון תוך כדי ביצוע צעדי Gradient Descent.
ברוב המקרים יש צורך ביותר מאפוק אחד כדי למזער את הלוס.
שימו לב שלמרות שבגרף כתוב Test, הסט איתו בודקים דיוק במהלך האימון הוא סט הולידציה.
סט הבחינה נשאר בצד עד הרגע האחרון. Image
12. הMini Batch
דגימה אקראית של כמות קבועה וקטנה יחסית רשומות מתוך הדאטהסט. הדרך הרווחת לאמן רשת נוירונים היום.
מעבירים מיני באץ' ברשת ועושים צעד דיסנט אחד על כולו.
הוכח כמשפר את יעילות אימון הרשתות יותר מלהעביר אחת אחת, ופרקטי יותר מלהעביר את כל הדאטה ורק אז לחשב גרדיאנט בודד. Image
13. אופטימייזר.
מימוש מחוכם של Gradient Descent.
יש כל מיני דרכים למימוש הפעולה שנקראת Gradient Descent, גם בה יש חלקים זזים.
אופטימייזר יקבע כיצד לבצע אותה.
האופטימייזר הכי פופולארי היום נקרא ADAM. Image
14. ארכיטקטורה של רשת נוירונים.
הצורה בה הנוירונים השונים מחוברים זה לזה, הכמות שלהם, מספר השכבות וכדומה.
משפיעה על היכולות השונות של הרשת ללמוד.
החיבור הסטנדרטי נקרא Dense, והוא פשוט מצב שכל הנוירונים בשכבה אחת מחוברים לכל הנוירונים בשכבה הבאה. Image
15. רשת קונבולוציה.
ארכיטקטורת הסטנדרט היום בעיבוד תמונה.
קונבולוציה היא פעולה מתמטית שמבוצעת על כל הפיקסלים בתמונה ומזקקת מהם מאפיינים כמו קצוות, צורות שחוזרות על עצמן וכדומה.
רשתות קונבולוציה מתחילות משכבות קונבולוציה, ואחריהן בדרך כלל שכבות Dense עד הפלט.
16. טרנספורמר.
רשת עמוקה מיוחדת שטובה במיוחד בעיבוד שפה, אך לא רק.
מכילה "ראשי Attention", שזו בעצם צורה מיוחדת של הרבה שכבות בהן הנוירונים מסודרים כך שהם יוכלו לנתח חשיבויות וקשרים בין מילים בטקסט. הטכנולוגיה שבבסיס ChatGPT וכל מודלי השפה.
מתחילים להשתמש בהם גם לעיבוד תמונה. Image
17. הRNN/LSTM - שתי ארכיטקטורות ששלטו בעיבוד סדרות לפני הטרנספורמרים.
רשתות שבנויות בצורה בה אפשר להכניס לתוכן רצף ארוך של מידע והן ידעו להתייחס אל רובו.
אם יש לכל מטופל 100 רשומות עם 20 פיצ'רים שמתארים כל שלב בטיפול, לא ארצה רשת שמקבלת קלט ומוציאה פלט, אלא מתמודדת עם כל הסדרה. Image
18. שיכון\Embedding.
תהליך בו אנחנו ממירים קלט שאיננו במספרים למספרים בצורה משמעותית.
לדוגמא, מחקר בשם word2vec יצר ייצוג מספרי (וקטור) לכל מילה, בצורה שבה
King-man+woman=king.
שיכון מתבצע על ידי העברה בתוך רשת נוירונים ושימוש במספרים שבשכבות הפנימיות כשיכון עצמו. Image
19. עצי החלטות, יערות אקראיים ובוסטינג.
עץ החלטות הוא אלגוריתם שמפצל את הדאטה שוב ושוב, כל פעם לפי הפיצ'ר הכי יעיל כדי לבצע סיווג או רגרסיה.
בסוף מתקבלת צורה של "עץ" שאפשר ללכת לאורכו ובכך לבצע את המשימה בצורה מאד ברורה ומוסברת.
יער אקראי הוא בעצם ערבוב של המון עצים שאומנו >> Image
קצת אחרת, כדי לייצר מודל "מגוון" עם הרבה דעות.
העצים מצביעים והרוב קובע.
גרדיאנט בוסטינג, או רק בוסטינג, היא שיטה בה מערבבים הרבה עצים "חלשים" ליצירת מודל חזק בדרך יותר מתוחכמת מסתם לבצע הצבעה של הרוב קובע. יש מיליון וריאציות איך לבצע את זה.
המוכרות - XGBoost, LightGMB, Catboost. Image
21. היפר פרמטרים\Hyper Parameters
שימו לב - שונה מ"פרמטרים"!
המספרים שקובעים את הצורה וצורת הפעולה של מודל לימוד המכונה.
פה נבין מדוגמא, הנה דברים שהם היפר פרמטר: ברשתות, מספר הנוירונים בכל שכבה, מספר השכבות, סוג השכבות, קצב הלימוד. בעצים - הגבלת עומק העץ, הנוסחה שלפיה >> Image
מחליטים איך לפצל את הדאטה.
בעצם ההיפר פרמטרים הם כל ההחלטות שצריך לקבל לפני שמריצים את המודל.
הם הכפתורים על לוח הבקרה שצריך ללכוונן לפני שלוחצים "שגר".
המציאה של ההגדרה הנכונה שלהם היא בד"כ אמפירית בניסויים, לא בגלל שיש תאוריה ענפה מאחורי מה כל דבר צריך להיות.
22. בעיות הOverfitting/Underfitting
מודל פשוט מידי לא יצליח לפתור את הבעיה.
מודל מסובך מידי יחבר את הנקודות בצורה OVER מתאימה ולא יצליח ללמוד להכליל, כלומר להתמודד עם מידע חדש שהוא לא ראה (למרות 0 טעות באימון).
אין דרך חד משמעית לדעת מראש איך לבנות נכון מודל.
ניסוי וטעיה. Image
23. הPrompt Engineering.
מודלי שפה אמורים להיות נגישים בשפה יום יומית. הגיעו חכמולוגים וגילו שאם הם מדברים איתם (=כותבים Prompt) בצורה מאד ספציפית, מקבלים תוצאות טובות יותר.
זה לא הנדסה. זה שם מפוצץ ללמצוא את הטקסט הכי מתאים.
נכון גם למודלים שמייצרים תמונות (Dalle2, מידג'רני וכו)
24. מודלי דיפוזיה\Diffusion Models.
אלה המודלים שמייצרים תמונות.
עובדים במשימה של "הרעשה" וניסון להחזיר את התמונה לקדמותה.
בשילוב עם טרנספורמרים, הם לומדים רעש שמייצג סוגים שונים של תמונות ויכולים לערבב אותן לפי דרישה.
הבסיס לכל טכנולוגיית התמונות שאנחנו מופגזים בה באופן מוגזם. Image
25. מדען נתונים.
מדען נתונים הוא מי שצריך להכיר את כל היתרונות, החסרונות, המגבלות והחוזקות של כל הכלים האלה, להסתכל על בעיה בעיניים ולחקור. להבין מה מתאים, איך מתאים, איך ליישם נכון ואיך למנוע מצבים של "הצלחה באימון וכישלון בקרב".
האלגוריתמים האלה רחוקים מלהיות Plug And Play >> Image
וכל זה בלי להתחיל לדבר על לפתח אותם, לשדרג אותם ולחשוב על רעיונות חדשים.
המון מהרעיונות שהצגתי פה הגיחו לעולם ב10-15 שנה האחרונות, זה מדע ממש חדש.
כל רעיון כאן נאבק על מקומו, זה התחיל ב20, עלה ל25 וקיבלתם עיתון.
דברים שלא נכנסו: PCA, VAE, GANs, EDA, Transfer Learning >>
ועוד המון שבטח אתחרט עוד דקה שלא פה.
ו.. זהו!
וואו, איזה שרשור לסופ"ש.
מקווה שנהנתם.
רוצים לא לפספס אף שרשור שלי?
בואו לערוץ הטלגרם השקט, תקבלו התראה כל פעם שעולה שרשור חדש!
linktr.ee/tsoofbaror
אם זה השרשור הראשון שלי שאתם קוראים, היי!
מזמין אתכם לחקור איתי את הקישקע של הAI,
כל פעם בדרך אחרת.
זה הזמן לעקוב אחרי:
twitter.com/tsoofbaror

מזמין אתכם לרטווט ולהגיב אם אהבתם,
ולהתעלם לגמרי אם השתעממתם. 😍
King-man+woman=Queen!!!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Tsoof Bar Or

Tsoof Bar Or Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @tsoofbaror

May 31
הAI שפותר בעיות במתמטיקה, ועושה את זה נפלא!
אני יודע שזה הוכרז הרגע, אבל אני מכה בברזל כל עוד הוא חם.
מה פשר ההכרזה של OpenAI?
איך זה שונה ממודל שפה רגיל?
בואו איתי 🧵 >>
#פידטק #פידאטה #פידטכנולוגיה Image
כדי להבין מה קורה כאן, צריך תפישה טובה של מה זה מודל שפה, לשירותכם בשרשור המצורף.
אני גם ממליץ לקרוא את השרשור על AutoGPT כרקע, שמקושר בציוץ הבא.
מודלי שפה חובה.
AutoGPT אפשר בלי.
נתחיל >>
1. דיברנו כבר על Complex Reasoning בשרשור על AutoGPT.
אפשר להסביר למודל שפה "איך לחשוב".
להגיד לו שהוא צריך לתכנן, לבקר את עצמו, לתת סיבות ורק אז לפעול.
הבעיה העיקרית היא תופעת ה"הזיות", הקטע הזה שמודל שפה אומר לכם שבנימין נתניהו הוא רקדנית בלט רומנייה >>
Read 21 tweets
May 29
הGPT בצלמנו ובדמותנו - AutoGPT.
האם זה הAI שסוף סוף ידע להכין לנו קפה?
לא.
האם הGPT פתאום מרגיש כמו מוח אנושי?
קצת כן.
היום נשוט בין המדהים לקצת מפחיד ונדבר על סוכן הAI האישי שלכם, AutoGPT 🧵>>
#פידטק #פידאטה #פידטכנולוגיה Image
שימו לב.
כדי להבין מה קורה כאן, נצטרך תפישה רעיונית של מה זה מודל שפה (LLM).
אנסה להיות ברור ככל האפשר, אבל אני ממליץ בחום לעבור על השרשור הזה לפני שאתם מתקדמים לAutoGPT.

אחרי שאמרנו את זה, נתחיל >>
1. שבת שטופת שמש והחלטתם לבלות אותה בהרכבת רהיט מאיקאה.
כיף גדול.
הארגז עומד מולכם.
"טוב, צריך לפתוח את הארגז", אתם חושבים.
"בלי לפתוח את הארגז אי אפשר להתחיל בכלל", אתם ממשיכים לחשוב.
"אוקי, אני אחתוך פה את נייר הדבק".
"רק אזהר לא להחתך בדרך".
נשמע מוכר? >> Image
Read 20 tweets
May 27
תהיתם פעם מה קורה אם נותנים לשני מודלי AI להלחם זה בזה?
נשמע כמו מתכון לסוף העולם?
יכול להיות, But Not Today.
למרות שהיה נראה שהן מתחילות להעלם מהעולם, רשתות אדוורסריאליות (GANs) חזרו ובגדול עם DraGAN, הכלי המטורף לעיבוד תמונה.
אז איך זה עובד? 🧵>>
#פידאטה #פידטק #פידטכנולוגיה
1. נתחיל בהערה חשובה.
ה-GANs, קיצור של Generative Adversarial Networks, היו ה-מודלים הגנרטיביים של "פעם", כש"פעם" בAI זה לפני שנים ספורות.
היה באז גדול על thisxdoesnotexist.com, מודל גנרטיבי אמיתי (כמשתמע, GANs הם GenAI) שיצר כל מיני דברים שלא קיימים.
היה מדהים, אבל אז הגיחו >>
2. הDiffusion Models לעולם והדיחו את הGANs מגדולתן.
הם המודלים שבבסיס מידג'רני, Dalle2 וחבריהם.
היום לא נדבר על דיפוזיה אלא על אותן GANs שעושות קאמבק היסטורי (כלומר, היסטוריה מ2014).
arxiv.org/abs/1406.2661
מוכנים?
נתחיל! >>
Read 16 tweets
May 26
אני מקווה שאתם מוכנים לשפשף את העיניים.
אחרי שמודלי שפה הראו יכולות פנומנלית בניהול שיחה, הבנת סנטימנט ועוד אי אילו משימות מורכבות, באו המדענים הסינגפוריים והראו שהם גם יכולים להיות טובים ב......
חשבון פשוט! >>
arxiv.org/pdf/2305.14201…
1. סתם, כמובן בלי טיפת זלזול, הם הראו שאם עושים fine tune למודל שפה על תרגילים של חיבור, חיסור, כפל וחילוק הוא מצליח לפתור גם תרגילים שהוא לא ראה, כאלה מסובכים.
זה נראה קצת טפשי, אבל יש כן משמעות פילוסופית - מתמטיקה היא סוג של שפה, לאו דווקא Skill קשה. >>
2. מה שמעניין כאן הוא השאלה האם המודל "חושב", כלומר מפעיל לוגיקה "אנושית" כדי להגיע לתשובות, או שאיכשהו בתהליך האימון המודל עבר סוג של hard-coding להיות קצת מחשבון.
כלומר, הנוירונים אשכרה עושים פעולות מתמטיות ישירות.
אם אני שואל את המודל כמה זה 10 ועוד 17, איפהשהו >>
Read 6 tweets
May 21
שונאים הקלטות של 2 דקות בוואצאפ?
בניתי מסכם שיחות.
בשעה.
בפחות מ20 שורות קוד.
הAI עובר דמוקרטיזציה - אתם לא מבינים כמה קל לבנות אפליקציות מבוססות GPT.
היום אספר לכם איך עשיתי את זה, וגם אם אין לכם שום רקע תכנותי - תבינו את הפשטות >> Image
השרשור הזה מניח שאתם מבינים הרעיון מודל שפה.
ממליץ לקרוא את השרשור הזה לפי, אבל לגמרי לא חובה, אם אין זמן פשוט תמשיכו הלאה, מבטיח שתבינו הכל.
נתחיל >>
1. כדי לבנות את המסכם, השתמשתי בשני מודלים של OpenAI.
הראשון נקרא Whisper, והוא מתמלל לטקסט קטעי אודיו. הוא עולה לי 2.2 אגורות לדקת תמלול.
השני, איך לא, הוא GPT.
הוא עולה לי כ0.7 אגורות ל1000 טוקנים (כ600-700 מילים).
אלה המחירים. קראתם נכון >> Image
Read 12 tweets
May 20
לאמן GPT על המידע של סבא מושיק.. בלי לאמן אותו?!
נכון שתמיד רציתם ChatGPT שיוכל לענות על שאלות שקשורות לעבודת השורשים שלכם?
"היי, תגיד, איפה סבא מושיק נולד?"
כל זה בלי לאמן אותו על שום דאטה של שום סבא!
שרשור טכנולוגי קליל לשבת! 🧵 >>
#פידאטה #פידטק #בינהמלאכותית Image
1. קודם כל, אם אין לכם שום הבנה איך מודלי שפה (LLM) עובדים מזמין אתכם קודם כל לקרוא את השרשור הקליל שלי בנושא, כי אני הולך להשתמש במילים כמו "קונטקסט" או "טוקן".
אעשה את המיטב להיות מובן גם בלעדיו, בכל מקרה. >>
2. מה הדרך הסטנדרטית לגרום למודל שפה לדעת דברים?
לאמן אותו על המידע הרלוונטי.
המודל מתאמן בשיטה של השלמת משפטים.
לוקחים את הדאטה, כל פעם חותכים באמצע ונותנים למודל לחזות את החצי השני.
התהליך עולה כסף, מצריך הבנה טכנית של כיצד מבצעים אותו בצורה נכונה, >> Image
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(