Tweet

How to get URL link on Twitter App

On the Twitter thread, click on or icon on the bottom
Click again on or Share Via icon
Click on Copy Link to Tweet
Paste it above and click "Unroll Thread"!
More info at Twitter Help

Tsoof Bar Or

@tsoofbaror

May 20 • 14 tweets • 5 min read Twitter logo

Read on Twitter

לאמן GPT על המידע של סבא מושיק.. בלי לאמן אותו?!
נכון שתמיד רציתם ChatGPT שיוכל לענות על שאלות שקשורות לעבודת השורשים שלכם?
"היי, תגיד, איפה סבא מושיק נולד?"
כל זה בלי לאמן אותו על שום דאטה של שום סבא!
שרשור טכנולוגי קליל לשבת! 🧵 >>
#פידאטה #פידטק #בינהמלאכותית

https://twitter.com/tsoofbaror/status/1651604337100050432

1. קודם כל, אם אין לכם שום הבנה איך מודלי שפה (LLM) עובדים מזמין אתכם קודם כל לקרוא את השרשור הקליל שלי בנושא, כי אני הולך להשתמש במילים כמו "קונטקסט" או "טוקן".
אעשה את המיטב להיות מובן גם בלעדיו, בכל מקרה. >>

https://twitter.com/tsoofbaror/status/1651604337100050432

2. מה הדרך הסטנדרטית לגרום למודל שפה לדעת דברים?
לאמן אותו על המידע הרלוונטי.
המודל מתאמן בשיטה של השלמת משפטים.
לוקחים את הדאטה, כל פעם חותכים באמצע ונותנים למודל לחזות את החצי השני.
התהליך עולה כסף, מצריך הבנה טכנית של כיצד מבצעים אותו בצורה נכונה, >>

3. לא תמיד מצליח ועלול לסבול מ"הזיות" - ה"חרטט בביטחון" הידוע של המודלים האלה.
לא רק האימון מ0 הוא תהליך מורכב.
גם Fine Tune הוא לא משהו מובן מאליו.
אז מה אם אין לי משאבים או רצון לייצר אימון מורכב על המידע שלי?
ובכן, היום נכיר את RALM.
Retrieval-Augmented Language Modeling >>

4. הרעיון?
פשוט להחריד, ומבוסס על "הנדסת פרומפטים".
בואו נתחיל בתרחיש הנאיבי.
נניח ולמודל שלנו יש קונטקסט של 8000 טוקנים,
(או בעברית: הוא יכול "לקרוא ולזכור" כ6000 מילים בבת אחת ולהתייחס אליהן)
ואני רוצה מודל שידע לענות על שאלות מתוך איזה עמוד FAQ של האתר שלי. >>

5. אין שם יותר מידי מידע, סביב ה4000 מילים של שאלות ותשובות.
המשתמש ישאל שאלה:
"איך משנמכים את המנוי שלי מפרימיום לGold?"
אבל זה לא מה שיכנס למודל השפה.
מה שיכנס למודל השפה יהיה פרומט שיראה ככה: >>

6. "המשתמש שאל: איך משנמכים את המנוי שלי מפרימיום לGold?
מה התשובה בהתבסס על המידע הזה?
<כל עמוד הFAQ>"
כלומר, בעצם בכל פעם שהמשתמש ישאל שאלה נצרף אליה את כל המידע האפשרי, נארגן מחדש את הפרומפט ומודל השפה ידלה ממנו את התשובה.
מגניב? נכון. >>

7. היום יש מודלים עם קונטקסט של 100k טוקנים.
זה ספר שלם.
תיאורטית, אפשר להכניס בהם שאלה של שורה ואת כל הספר.
העניין הוא שמתן תחזית על בסיס כל כך הרבה טוקנים כל הזמן עולה בהמון משאבי מחשוב, ורוב המודלים בעלי קונטקסט קטן מידי.
לכן שווה לנצל כל טריק שנרצה שמבוסס על חיפוש קלאסי >>

8. נניח, לייצר אינדקסים כמו "מנוי", "כסף", "באג" וכו שיכניסו רק חלק מהמידע אל תוך הפרומט, ולבנות אותו בצורה של:
המשתמש שאל: __
האם נמצאת כאן התשובה?
<מידע>
ולגרום למודל לעשות פינג-פונג עם עצמו עד שתגיע תשובה מספקת, בשאיפה לחסוך בטוקנים.

9. השיטה מצריכה ה-מ-ו-ן יצירתיות בטריקים של איך לחסוך את הכנסת כל המידע לתוך הפרומפט, אבל מאפשרת שימוש נוח וקל במודלים שאומנו מראש בלי הצורך להכנס אל הקרביים שלהם ולשנות אותם מבפנים.
💣
על הבסיס זה התפחו כלים כמו LangChain שעושים את זה, בכינוי "Data Aware LLM" >>

10.יש כאן בעצם שתי משימות:
1. להבין איזה חלק מהדאטה רלוונטי לבעיה - ???
2. להוציא מהדאטה את התשובה - זה מודל שפה (נגיד GPT).
הLangChain אחראי על הראשון, בכל מיני שיטות שדומות למה שהסברתי כאן. >>
docs.langchain.com/docs/

11. אותי מעניין אפשר לבנות ארכיטקטורת ML משולבת.
מודלים עם קונקסט ענק זה יקר.
האם אפשר לבנות מודל שהתכלית שלו היא לקבל טקסט ענק ורק לזקק ממנו את החלק הרלוונטי בגודל K מילים (שזה סוג של סיווג בינארי), ואז על בסיס הזיקוק הזה מודל שפה כמו GPT יוכל לבצע RALM?
מעניין.

12. זהו להיום!
דעו שהפידבקים, השאלות וההתעניינות שלכן\ם נותנים לי המון מוטיבציה לכתוב.
היה מעניין ורוצים לתמוך?
רטווטו כדי שאוכל להגיע לעוד קהל! :)
רעיונות לדברים ששווה לדבר עליהם?
כתבו לי!
שבוע נפלא לכולם 😍

מקורות להרחבה!
מאמר של AI21Labs הישראלית בנושא:
arxiv.org/abs/2302.00083

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @tsoofbaror

Tsoof Bar Or

@tsoofbaror

May 18

היום לא נדבר על ה"איך", נדבר על ה"למה".
תהיתם פעם למה רשתות נוירונים עובדות?
אם לא, ידעתן שהתשובה קצת מדכאת?
אז למה #בינהמלאכותית עובדת, ולמה דווקא רשתות נוירונים.
כמובן בלי צורך בידע קודם, קדימה 🧵 >>
#פידטק #פידאטה #פידטכנולוגיה

1. אז למה אני מדוכא?
מאחורי רשתות הנוירונים נמצאת האמונה שכל מה שאנחנו עושים הוא בסוף.. פונקציה.
כן. אלה שלמדנו עליהן בתיכון, אלה שגזרנו, אלה שחישבנו להן אינטגרל. הפרק הזה בבגרות.
הבינה האנושית היא פונקציה.
בChatGPT, הx הוא הטקסט שאתם מכניסים. f(x) היא התשובה שלו.

2. זאת תפישה פילוסופית. זה אומר שכל תוצאה אפשר למדל כתרגיל מתמטי מורכב של הסיבה שגרמה לה.
הפונקציות המדוברות הן בדרך כלל פונקציות סטטיסטיות.
למה סטטיסטיות?
כי אם תשאלו אותי "מה נשמע" כשאובייקטיבית הכל נפלא בחיי, לפעמים אענה "הכל טוב", לפעמים "סבבה" ולפעמים "אחלה" >>

Read 16 tweets

Tsoof Bar Or

@tsoofbaror

May 16

התגלית ששברה את עולם הבינה המלאכותית (והסטטיסטיקה) התרחשה ב..
2018?
כן. בערך 5 שנים.
היום נדבר על התופעה המוזרה המכונה Double Descent, שהותירה את גדולי המדענים פעורי פה.
קחו אוויר, ובואו איתי להבין מה קרה שם, כמובן ללא צורך בידע קודם 🧵
#פידטק #פידאטה #בינה_מלאכותית
>>

1. נתחיל בלדבר על מודל ה"בינה המלאכותית" החשוב ביותר שידוע לאנושות: הממוצע.
כן. הממוצע.
מה אנחנו מנסים להשיג בבינה מלאכותית?
במשפט, למזער את שגיאות המודל בביצוע משימה כלשהי. אם המשימה היא לחזות גבהים של סטודנטים, המודל הכי פשוט שיתן את השגיאה הנמוכה ביותר הוא הממוצע. >>

2. הממוצע מזקק בתוכו אינפורמציה על כל הקבוצה בפרמטר יחיד. הוא לא לומד את גבהי הקבוצה בע"פ, נכון? נכון, מלבד מקרה אחד.
מה הוא?
טוב, זה קל - כשיש חבר אחד בקבוצה.
הממוצע "למד בעל פה" את המידע שעליו הוא התאמן. אין הכללה, רק שינון. >>

Read 17 tweets

Tsoof Bar Or

@tsoofbaror

May 12

היום נצלול אל מעמקי המוח של הAI.
תכינו את עצמכם לInception של עולם הGPT, כי לפני שלושה ימים הבינה המלאכותית התחילה להסביר את עצמה.
לא צריך (אך מומלץ) ידע מוקדם, רק הרבה סקרנות וקצת יראת כבוד.
שרשור על איך לומדים על AI עם AI, קדימה 🧵 >>
#פידטק #פידאטה #פידטכנולוגיה

https://twitter.com/tsoofbaror/status/1651604337100050432

1. קודם כל, רקע במודלי שפה (LLM).
אם אין לכם שמץ מה קורה שם בקישקע של ChatGPT, מזמין אתכם לקפוץ לקרוא את השרשור הזה.
לא מאסט, אבל ממש-מאד-ממש מומלץ.
זה יעשה סדר, כי נכנס פה לאקטואליה.
נמשיך >>

https://twitter.com/tsoofbaror/status/1651604337100050432

2. רשתות נוירונים של מודלי שפה הן רעיון די מטורלל. מיליארדי פעולות מתמטיות שבסוף מתרגמות לאיזה משפט.
אבל איך?
מה קרה בבפנוכו שהביא את המודל להוציא משפט כזה? האם המודל שלנו מוטה?
גזען?
במילים אחרות - האם הוא "מיושר" (Aligned) עם הערכים האנושיים?

Read 17 tweets

Tsoof Bar Or

@tsoofbaror

May 4

טוב, כולם מדברים על זה, אז הגיע הזמן לשרשור אקטואלי.
מסמך מודלף של גוגל: "אין לא לנו ולא לOpenAI יתרון אמיתי".
בואו נבין ביחד את המשמעות של המשפט הזה, ולמה (אולי) אנחנו בתחילתה של מהפכה בסדר גודל של הWWW.
דיסקליימר: מאמר מודלף שלא ברור מקורו.
בואו איתי >>
semianalysis.com/p/google-we-ha…

1. קוד מקור הוא לא כמו ציור.
ציור אפשר להעתיק או לצלם. תוכנה לעומת זאת, גם אם יש לי אותה על המחשב, לא ניתן ברוב המוחלט של המקרים להנדס לאחור ולקחת לה את הקוד לשימוש שלנו.
בגלל זה ChatGPT הוא רק של OpenAI, ואת Bard אני לא סובל אז לא אגיד עליו כלום.
אמרנו את זה, נמשיך >>

2. גוגל בגדול אומרים: "אנחנו לא בכיוון של לנצח במירוץ הזה, אבל גם לא OpenAI".
המלחמה הגדולה שלהם היא בקוד הפתוח (Open Source). אלגוריתמים שזמינים לשימוש הציבור, אם למחקר או ממש לשימוש מסחרי.
הם בחינם ובאינטרנט, ומשודרגים ע"י הקהילה שרוצה לעשות טוב לאנושות >>

Read 15 tweets

Tsoof Bar Or

@tsoofbaror

Apr 27

משתגעים להבין מה זה כל הGPT הזה?
אני במילואים, עייף וחסר יכולת להשקיע במטלות שלי, אז ברור שזה הזמן לכתוב שרשור.
היום נכנס לנבכי הLLM - "מודלי שפה ענקיים" וננסה להבין מה קורה בקישקע שלהם ואיך הם עובדים כלכך טוב.
כרגיל, לא צריך ידע במתמטיקה או מחשבים.
#פידטק #פידאטה יאללה >>

https://twitter.com/tsoofbaror/status/1564335495559221249

1. נתחיל בהתחלה עם כותרת מפוצצת.
הGPT הוא חלק מקבוצת אלגוריתמים בשם LLM - Large Language Models שמבוססים על רשתות הנוירונים הקלאסיות (NN) עם ים שדרוגים.
אם NN היא קיר, אז LLM הוא סוג של עזריאלי.
אם הרעיון של NN זר לכם, מזמין אתכם לשרשור שלי בנושא >>

https://twitter.com/tsoofbaror/status/1564335495559221249

1.5. אמ;לק קצר לפני שנתחיל: הLLMs לוקחים את הטקסט, ממירים אותו למספר, חוזים מה המספר הכי סביר הבא, ממירים את המספר הכי סביר הבא לטקסט, והופ - קיבלנו תשובה מChatGPT. עכשיו נרד לעומק של המכונה המשומנת הזו.
איך זה קורה? >>

Read 17 tweets

Tsoof Bar Or

@tsoofbaror

Aug 29, 2022

@StavKislev

לקח לי יותר מידי זמן לכתוב את השרשור הזה, אבל אחת ולתמיד:
"רשת נוירונים", מה זה ואיך זה עובד.
בגלל (בזכות!) @StavKislev רוב העוקבים שלי מ #פידרפואה, אז כל האנלוגיות כאן יהיו מהתחום.
#פידאטה , #פידטק 🧵
(כרגיל - אין צורך בידע במתמטיקה או במחשבים. או ברפואה.)

(1/16) נתחיל רגע בשאלה פילוסופית - מה המשמעות של הביטוי "ליישם ידע"? מה התוצר של "ללמוד"?
למידה היא כמו מפעל.
אל מפעל כתר נכנסים בלוקים של פלסטיק, ויוצאים כיסאות מהודרים ומוכנים לקטטה. משהו קורה שם באמצע במפעל של כתר.
כשרופא מאבחן מחלה, הוא מכניס אל תוך המוח

(2/16) את כל מדדי החולה - ופולט החוצה "עגבת"!
רשת נוירונים היא ניסיון לחקות את מה שקורה שם באמצע, בשפה שמחשב מבין.
הרשת מקבלת המון מספרים, ומוציאה החוצה המון (או מעט) מספרים. כן, זה עד כדי כך פשוט. יש שלושה עניינים מעניינים:
מה הם המספרים האלה, ואיך יוצרים אותם ומה משמעותם.

Read 17 tweets

Support us! We are indie developers!

This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Share this page!

Enter Twitter Thread URL to Unroll

Tsoof Bar Or

People who liked this thread also liked...

Try unrolling a thread yourself!

More from @tsoofbaror

Tsoof Bar Or

Tsoof Bar Or

Tsoof Bar Or

Tsoof Bar Or

Tsoof Bar Or

Tsoof Bar Or

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Send Email!