OK we are going somewhere! it definitely learns so the router net is probably fine.
Now I just need to understand if we want to freeze the backbone on all machines when training the experts or we can somehow sync them and we are ready to train wizardcoder-hermes-airoboros experts
• • •
Missing some Tweet in this thread? You can try to
force a refresh
I think I get it now. let's try something out:
.
Comment to this thread everything you "just guess" about GPT-4 👇👇
Guess: In the dataset: Went through every undergrad major and included exams, tests & textbooks of the subject. [to create a "wow" effect for every educated person no matter the field]
Guess: GPT-3's batch-size is written deliberately misleading in the paper (millions) when in real life it is much smaller. This is because NEARLY ALL THE TIME smaller batches leads to better performance. So: the training here at some point probably was done in small batches. twitter.com/i/web/status/1…
החלקים החסרים של GPT-4 (בעברית) 👇
.
The missing pieces of GPT-4 (Hebrew)👇
.
טריקים שאף אחד לא מדבר עליהם ועתיד מודלי השפה הפתוחים.
***
> אמ;לק: למידה ממשוב לא-אנושי (!!)
.
העברתי הרצאה מעניינת לפני כמה ימים בכנס #GenML עם אותו השם ("החלקים החסרים של GPT-4").
בזמן שכולנו מחכים… twitter.com/i/web/status/1…
חלק 2: ההשפעה של LLaMA
----------
אתם כבר יודעים על LLaMA.
מודל שפה עוצמתי מבית מטא, שוחרר בקוד פתוח בפברואר האחרון.
המודל עומד במרכזו של מאמץ עולמי לשחזר את יכולות מודלי השפה המסחריים באופן פתוח.
בכך לספק למיליוני אנשים בכל רחבי העולם גישה לטכנולוגיה זו.
ישנם עשרות אלפי אנשים… twitter.com/i/web/status/1…
חלק 3: אימון מקדים
---------
כאן מושקעים 99% מהמאמצים, גם כוח החישוב וגם העלות הכספית. כשאתם שומעים סיפורים כמו "4 מיליון דולר לאימון.." בדרך כלל הם מתייחסים לשלב האימון הזה.
לצערנו, בדרך כלל שלב זה מחוץ להישג יד עבור רוב האנשים מסיבות ברורות.
מה אנחנו כן יודעים על השלב הזה?… twitter.com/i/web/status/1…
How to trick AUC into scoring your stupid models higher 👌
👇A - Thread - about gaming the AUC metric!👇
There is a built-in "flaw" with the AUC metric. Today we are going to take it for a spin!
One of the questions coming up as we get stuck on improving individual models further is how to best combine multiple models.
Apart from simple the baseline Avg, Median or Avg-Median-Rocket-Science-Blending[1].
We can also use power averaging which is favoured by the AUC metric. [2]
But can we push this even further?
With AUC, upside error or downside error does not really matter. AUC only cares about how the predictions are ordered.