החלקים החסרים של GPT-4 (בעברית) 👇
.
The missing pieces of GPT-4 (Hebrew)👇
.
טריקים שאף אחד לא מדבר עליהם ועתיד מודלי השפה הפתוחים.
***
> אמ;לק: למידה ממשוב לא-אנושי (!!)
.
העברתי הרצאה מעניינת לפני כמה ימים בכנס #GenML עם אותו השם ("החלקים החסרים של GPT-4").
בזמן שכולנו מחכים… twitter.com/i/web/status/1…
חלק 2: ההשפעה של LLaMA
----------
אתם כבר יודעים על LLaMA.
מודל שפה עוצמתי מבית מטא, שוחרר בקוד פתוח בפברואר האחרון.
המודל עומד במרכזו של מאמץ עולמי לשחזר את יכולות מודלי השפה המסחריים באופן פתוח.
בכך לספק למיליוני אנשים בכל רחבי העולם גישה לטכנולוגיה זו.
ישנם עשרות אלפי אנשים… twitter.com/i/web/status/1…
חלק 3: אימון מקדים
---------
כאן מושקעים 99% מהמאמצים, גם כוח החישוב וגם העלות הכספית. כשאתם שומעים סיפורים כמו "4 מיליון דולר לאימון.." בדרך כלל הם מתייחסים לשלב האימון הזה.
לצערנו, בדרך כלל שלב זה מחוץ להישג יד עבור רוב האנשים מסיבות ברורות.
מה אנחנו כן יודעים על השלב הזה?… twitter.com/i/web/status/1…
חלק 4: אימון ממוקד: Fine Tuning
---------
> אמ;לק: אין קסם. מאמנים את המודל כמו באימון מקדים אבל על "משימות פתורות": משימה ואחריה הפתרון. [שאלה > תשובה, למשל]
אחת התגליות החשובות ביותר של קהילת הקוד הפתוח הייתה שאימון זה עובד גם עם נתונים סינתטיים.
המשמעות: מפחית את העלות הנדרשת… twitter.com/i/web/status/1…
חלק 5: מה חסר?
---------
לפני שנעבור ל-RL, הנה כמה מהיכולות שאנחנו עדיין צריכים להשתפר בהן:
מודל בסיס חזק יותר: מכיוון שרוב היכולות של מודלי שפה מגיעות משלבי האימון המקדים: מודל בסיס טוב יותר יהיה מצוין. [צוקרברג 🙏]
ידע:
איסוף נתונים: ציוץ טוב של אופיר פרס [תיוג בפוסט המקורי]… twitter.com/i/web/status/1…
חלק 6: צריך למידה מחיזוקים?
---------
תשובה: כן.
סיבה: הלכתי לבדוק.
ניסוי: אותו מודל: מאומן עם רגיל | מאומן מחיזוקים.
תוצאה: באופן מובהק למידה מחיזוקים מובילה לתוצאות טובות יותר. (מוצג בשקופיות, מחכים לסרטון מהכנס.)
הסברים אפשריים:
יואב גולדברג כתב מאמר מצוין על הצורך בלמידה… twitter.com/i/web/status/1…
חלק 7: טריק עצום במאמר GPT-4.
---------
אמ;לק: למידה ממשוב לא (!!) אנושי.
בלמידה ממשוב אנושי: המודל מייצר כמה אפשרויות טקסט והאדם בחר את הטובה ביותר (או מדרג).
במקום זאת: פשוט נשאל את GPT-4 "איזה טקסט יותר טוב?"
.
טריק זה מפחית את המאמץ של למידה מחיזוקים לאפס.
אפס מוחלט. אתם… twitter.com/i/web/status/1…
• • •
Missing some Tweet in this thread? You can try to
force a refresh
I think I get it now. let's try something out:
.
Comment to this thread everything you "just guess" about GPT-4 👇👇
Guess: In the dataset: Went through every undergrad major and included exams, tests & textbooks of the subject. [to create a "wow" effect for every educated person no matter the field]
Guess: GPT-3's batch-size is written deliberately misleading in the paper (millions) when in real life it is much smaller. This is because NEARLY ALL THE TIME smaller batches leads to better performance. So: the training here at some point probably was done in small batches. twitter.com/i/web/status/1…
How to trick AUC into scoring your stupid models higher 👌
👇A - Thread - about gaming the AUC metric!👇
There is a built-in "flaw" with the AUC metric. Today we are going to take it for a spin!
One of the questions coming up as we get stuck on improving individual models further is how to best combine multiple models.
Apart from simple the baseline Avg, Median or Avg-Median-Rocket-Science-Blending[1].
We can also use power averaging which is favoured by the AUC metric. [2]
But can we push this even further?
With AUC, upside error or downside error does not really matter. AUC only cares about how the predictions are ordered.