Tsoof Bar Or Profile picture
May 20 14 tweets 5 min read Twitter logo Read on Twitter
לאמן GPT על המידע של סבא מושיק.. בלי לאמן אותו?!
נכון שתמיד רציתם ChatGPT שיוכל לענות על שאלות שקשורות לעבודת השורשים שלכם?
"היי, תגיד, איפה סבא מושיק נולד?"
כל זה בלי לאמן אותו על שום דאטה של שום סבא!
שרשור טכנולוגי קליל לשבת! 🧵 >>
#פידאטה #פידטק #בינהמלאכותית Image
1. קודם כל, אם אין לכם שום הבנה איך מודלי שפה (LLM) עובדים מזמין אתכם קודם כל לקרוא את השרשור הקליל שלי בנושא, כי אני הולך להשתמש במילים כמו "קונטקסט" או "טוקן".
אעשה את המיטב להיות מובן גם בלעדיו, בכל מקרה. >>
2. מה הדרך הסטנדרטית לגרום למודל שפה לדעת דברים?
לאמן אותו על המידע הרלוונטי.
המודל מתאמן בשיטה של השלמת משפטים.
לוקחים את הדאטה, כל פעם חותכים באמצע ונותנים למודל לחזות את החצי השני.
התהליך עולה כסף, מצריך הבנה טכנית של כיצד מבצעים אותו בצורה נכונה, >> Image
3. לא תמיד מצליח ועלול לסבול מ"הזיות" - ה"חרטט בביטחון" הידוע של המודלים האלה.
לא רק האימון מ0 הוא תהליך מורכב.
גם Fine Tune הוא לא משהו מובן מאליו.
אז מה אם אין לי משאבים או רצון לייצר אימון מורכב על המידע שלי?
ובכן, היום נכיר את RALM.
Retrieval-Augmented Language Modeling >> Image
4. הרעיון?
פשוט להחריד, ומבוסס על "הנדסת פרומפטים".
בואו נתחיל בתרחיש הנאיבי.
נניח ולמודל שלנו יש קונטקסט של 8000 טוקנים,
(או בעברית: הוא יכול "לקרוא ולזכור" כ6000 מילים בבת אחת ולהתייחס אליהן)
ואני רוצה מודל שידע לענות על שאלות מתוך איזה עמוד FAQ של האתר שלי. >>
5. אין שם יותר מידי מידע, סביב ה4000 מילים של שאלות ותשובות.
המשתמש ישאל שאלה:
"איך משנמכים את המנוי שלי מפרימיום לGold?"
אבל זה לא מה שיכנס למודל השפה.
מה שיכנס למודל השפה יהיה פרומט שיראה ככה: >>
6. "המשתמש שאל: איך משנמכים את המנוי שלי מפרימיום לGold?
מה התשובה בהתבסס על המידע הזה?
<כל עמוד הFAQ>"
כלומר, בעצם בכל פעם שהמשתמש ישאל שאלה נצרף אליה את כל המידע האפשרי, נארגן מחדש את הפרומפט ומודל השפה ידלה ממנו את התשובה.
מגניב? נכון. >>
7. היום יש מודלים עם קונטקסט של 100k טוקנים.
זה ספר שלם.
תיאורטית, אפשר להכניס בהם שאלה של שורה ואת כל הספר.
העניין הוא שמתן תחזית על בסיס כל כך הרבה טוקנים כל הזמן עולה בהמון משאבי מחשוב, ורוב המודלים בעלי קונטקסט קטן מידי.
לכן שווה לנצל כל טריק שנרצה שמבוסס על חיפוש קלאסי >>
8. נניח, לייצר אינדקסים כמו "מנוי", "כסף", "באג" וכו שיכניסו רק חלק מהמידע אל תוך הפרומט, ולבנות אותו בצורה של:
המשתמש שאל: __
האם נמצאת כאן התשובה?
<מידע>
ולגרום למודל לעשות פינג-פונג עם עצמו עד שתגיע תשובה מספקת, בשאיפה לחסוך בטוקנים.
9. השיטה מצריכה ה-מ-ו-ן יצירתיות בטריקים של איך לחסוך את הכנסת כל המידע לתוך הפרומפט, אבל מאפשרת שימוש נוח וקל במודלים שאומנו מראש בלי הצורך להכנס אל הקרביים שלהם ולשנות אותם מבפנים.
💣
על הבסיס זה התפחו כלים כמו LangChain שעושים את זה, בכינוי "Data Aware LLM" >>
10.יש כאן בעצם שתי משימות:
1. להבין איזה חלק מהדאטה רלוונטי לבעיה - ???
2. להוציא מהדאטה את התשובה - זה מודל שפה (נגיד GPT).
הLangChain אחראי על הראשון, בכל מיני שיטות שדומות למה שהסברתי כאן. >>
docs.langchain.com/docs/ Image
11. אותי מעניין אפשר לבנות ארכיטקטורת ML משולבת.
מודלים עם קונקסט ענק זה יקר.
האם אפשר לבנות מודל שהתכלית שלו היא לקבל טקסט ענק ורק לזקק ממנו את החלק הרלוונטי בגודל K מילים (שזה סוג של סיווג בינארי), ואז על בסיס הזיקוק הזה מודל שפה כמו GPT יוכל לבצע RALM?
מעניין.
12. זהו להיום!
דעו שהפידבקים, השאלות וההתעניינות שלכן\ם נותנים לי המון מוטיבציה לכתוב.
היה מעניין ורוצים לתמוך?
רטווטו כדי שאוכל להגיע לעוד קהל! :)
רעיונות לדברים ששווה לדבר עליהם?
כתבו לי!
שבוע נפלא לכולם 😍
מקורות להרחבה!
מאמר של AI21Labs הישראלית בנושא:
arxiv.org/abs/2302.00083

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Tsoof Bar Or

Tsoof Bar Or Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @tsoofbaror

May 18
היום לא נדבר על ה"איך", נדבר על ה"למה".
תהיתם פעם למה רשתות נוירונים עובדות?
אם לא, ידעתן שהתשובה קצת מדכאת?
אז למה #בינהמלאכותית עובדת, ולמה דווקא רשתות נוירונים.
כמובן בלי צורך בידע קודם, קדימה 🧵 >>
#פידטק #פידאטה #פידטכנולוגיה Image
1. אז למה אני מדוכא?
מאחורי רשתות הנוירונים נמצאת האמונה שכל מה שאנחנו עושים הוא בסוף.. פונקציה.
כן. אלה שלמדנו עליהן בתיכון, אלה שגזרנו, אלה שחישבנו להן אינטגרל. הפרק הזה בבגרות.
הבינה האנושית היא פונקציה.
בChatGPT, הx הוא הטקסט שאתם מכניסים. f(x) היא התשובה שלו. Image
2. זאת תפישה פילוסופית. זה אומר שכל תוצאה אפשר למדל כתרגיל מתמטי מורכב של הסיבה שגרמה לה.
הפונקציות המדוברות הן בדרך כלל פונקציות סטטיסטיות.
למה סטטיסטיות?
כי אם תשאלו אותי "מה נשמע" כשאובייקטיבית הכל נפלא בחיי, לפעמים אענה "הכל טוב", לפעמים "סבבה" ולפעמים "אחלה" >>
Read 16 tweets
May 16
התגלית ששברה את עולם הבינה המלאכותית (והסטטיסטיקה) התרחשה ב..
2018?
כן. בערך 5 שנים.
היום נדבר על התופעה המוזרה המכונה Double Descent, שהותירה את גדולי המדענים פעורי פה.
קחו אוויר, ובואו איתי להבין מה קרה שם, כמובן ללא צורך בידע קודם 🧵
#פידטק #פידאטה #בינה_מלאכותית
>> Image
1. נתחיל בלדבר על מודל ה"בינה המלאכותית" החשוב ביותר שידוע לאנושות: הממוצע.
כן. הממוצע.
מה אנחנו מנסים להשיג בבינה מלאכותית?
במשפט, למזער את שגיאות המודל בביצוע משימה כלשהי. אם המשימה היא לחזות גבהים של סטודנטים, המודל הכי פשוט שיתן את השגיאה הנמוכה ביותר הוא הממוצע. >> Image
2. הממוצע מזקק בתוכו אינפורמציה על כל הקבוצה בפרמטר יחיד. הוא לא לומד את גבהי הקבוצה בע"פ, נכון? נכון, מלבד מקרה אחד.
מה הוא?
טוב, זה קל - כשיש חבר אחד בקבוצה.
הממוצע "למד בעל פה" את המידע שעליו הוא התאמן. אין הכללה, רק שינון. >>
Read 17 tweets
May 12
היום נצלול אל מעמקי המוח של הAI.
תכינו את עצמכם לInception של עולם הGPT, כי לפני שלושה ימים הבינה המלאכותית התחילה להסביר את עצמה.
לא צריך (אך מומלץ) ידע מוקדם, רק הרבה סקרנות וקצת יראת כבוד.
שרשור על איך לומדים על AI עם AI, קדימה 🧵 >>
#פידטק #פידאטה #פידטכנולוגיה Image
1. קודם כל, רקע במודלי שפה (LLM).
אם אין לכם שמץ מה קורה שם בקישקע של ChatGPT, מזמין אתכם לקפוץ לקרוא את השרשור הזה.
לא מאסט, אבל ממש-מאד-ממש מומלץ.
זה יעשה סדר, כי נכנס פה לאקטואליה.
נמשיך >>
2. רשתות נוירונים של מודלי שפה הן רעיון די מטורלל. מיליארדי פעולות מתמטיות שבסוף מתרגמות לאיזה משפט.
אבל איך?
מה קרה בבפנוכו שהביא את המודל להוציא משפט כזה? האם המודל שלנו מוטה?
גזען?
במילים אחרות - האם הוא "מיושר" (Aligned) עם הערכים האנושיים? Image
Read 17 tweets
May 4
טוב, כולם מדברים על זה, אז הגיע הזמן לשרשור אקטואלי.
מסמך מודלף של גוגל: "אין לא לנו ולא לOpenAI יתרון אמיתי".
בואו נבין ביחד את המשמעות של המשפט הזה, ולמה (אולי) אנחנו בתחילתה של מהפכה בסדר גודל של הWWW.
דיסקליימר: מאמר מודלף שלא ברור מקורו.
בואו איתי >>
semianalysis.com/p/google-we-ha…
1. קוד מקור הוא לא כמו ציור.
ציור אפשר להעתיק או לצלם. תוכנה לעומת זאת, גם אם יש לי אותה על המחשב, לא ניתן ברוב המוחלט של המקרים להנדס לאחור ולקחת לה את הקוד לשימוש שלנו.
בגלל זה ChatGPT הוא רק של OpenAI, ואת Bard אני לא סובל אז לא אגיד עליו כלום.
אמרנו את זה, נמשיך >>
2. גוגל בגדול אומרים: "אנחנו לא בכיוון של לנצח במירוץ הזה, אבל גם לא OpenAI".
המלחמה הגדולה שלהם היא בקוד הפתוח (Open Source). אלגוריתמים שזמינים לשימוש הציבור, אם למחקר או ממש לשימוש מסחרי.
הם בחינם ובאינטרנט, ומשודרגים ע"י הקהילה שרוצה לעשות טוב לאנושות >>
Read 15 tweets
Apr 27
משתגעים להבין מה זה כל הGPT הזה?
אני במילואים, עייף וחסר יכולת להשקיע במטלות שלי, אז ברור שזה הזמן לכתוב שרשור.
היום נכנס לנבכי הLLM - "מודלי שפה ענקיים" וננסה להבין מה קורה בקישקע שלהם ואיך הם עובדים כלכך טוב.
כרגיל, לא צריך ידע במתמטיקה או מחשבים.
#פידטק #פידאטה יאללה >> Image
1. נתחיל בהתחלה עם כותרת מפוצצת.
הGPT הוא חלק מקבוצת אלגוריתמים בשם LLM - Large Language Models שמבוססים על רשתות הנוירונים הקלאסיות (NN) עם ים שדרוגים.
אם NN היא קיר, אז LLM הוא סוג של עזריאלי.
אם הרעיון של NN זר לכם, מזמין אתכם לשרשור שלי בנושא >>
1.5. אמ;לק קצר לפני שנתחיל: הLLMs לוקחים את הטקסט, ממירים אותו למספר, חוזים מה המספר הכי סביר הבא, ממירים את המספר הכי סביר הבא לטקסט, והופ - קיבלנו תשובה מChatGPT. עכשיו נרד לעומק של המכונה המשומנת הזו.
איך זה קורה? >> Image
Read 17 tweets
Aug 29, 2022
לקח לי יותר מידי זמן לכתוב את השרשור הזה, אבל אחת ולתמיד:
"רשת נוירונים", מה זה ואיך זה עובד.
בגלל (בזכות!) @StavKislev רוב העוקבים שלי מ #פידרפואה, אז כל האנלוגיות כאן יהיו מהתחום.
#פידאטה , #פידטק 🧵
(כרגיל - אין צורך בידע במתמטיקה או במחשבים. או ברפואה.) Image
(1/16) נתחיל רגע בשאלה פילוסופית - מה המשמעות של הביטוי "ליישם ידע"? מה התוצר של "ללמוד"?
למידה היא כמו מפעל.
אל מפעל כתר נכנסים בלוקים של פלסטיק, ויוצאים כיסאות מהודרים ומוכנים לקטטה. משהו קורה שם באמצע במפעל של כתר.
כשרופא מאבחן מחלה, הוא מכניס אל תוך המוח Image
(2/16) את כל מדדי החולה - ופולט החוצה "עגבת"!
רשת נוירונים היא ניסיון לחקות את מה שקורה שם באמצע, בשפה שמחשב מבין.
הרשת מקבלת המון מספרים, ומוציאה החוצה המון (או מעט) מספרים. כן, זה עד כדי כך פשוט. יש שלושה עניינים מעניינים:
מה הם המספרים האלה, ואיך יוצרים אותם ומה משמעותם. Image
Read 17 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(