לאמן GPT על המידע של סבא מושיק.. בלי לאמן אותו?!
נכון שתמיד רציתם ChatGPT שיוכל לענות על שאלות שקשורות לעבודת השורשים שלכם?
"היי, תגיד, איפה סבא מושיק נולד?"
כל זה בלי לאמן אותו על שום דאטה של שום סבא!
שרשור טכנולוגי קליל לשבת! 🧵 >> #פידאטה#פידטק#בינהמלאכותית
1. קודם כל, אם אין לכם שום הבנה איך מודלי שפה (LLM) עובדים מזמין אתכם קודם כל לקרוא את השרשור הקליל שלי בנושא, כי אני הולך להשתמש במילים כמו "קונטקסט" או "טוקן".
אעשה את המיטב להיות מובן גם בלעדיו, בכל מקרה. >>
2. מה הדרך הסטנדרטית לגרום למודל שפה לדעת דברים?
לאמן אותו על המידע הרלוונטי.
המודל מתאמן בשיטה של השלמת משפטים.
לוקחים את הדאטה, כל פעם חותכים באמצע ונותנים למודל לחזות את החצי השני.
התהליך עולה כסף, מצריך הבנה טכנית של כיצד מבצעים אותו בצורה נכונה, >>
3. לא תמיד מצליח ועלול לסבול מ"הזיות" - ה"חרטט בביטחון" הידוע של המודלים האלה.
לא רק האימון מ0 הוא תהליך מורכב.
גם Fine Tune הוא לא משהו מובן מאליו.
אז מה אם אין לי משאבים או רצון לייצר אימון מורכב על המידע שלי?
ובכן, היום נכיר את RALM.
Retrieval-Augmented Language Modeling >>
4. הרעיון?
פשוט להחריד, ומבוסס על "הנדסת פרומפטים".
בואו נתחיל בתרחיש הנאיבי.
נניח ולמודל שלנו יש קונטקסט של 8000 טוקנים,
(או בעברית: הוא יכול "לקרוא ולזכור" כ6000 מילים בבת אחת ולהתייחס אליהן)
ואני רוצה מודל שידע לענות על שאלות מתוך איזה עמוד FAQ של האתר שלי. >>
5. אין שם יותר מידי מידע, סביב ה4000 מילים של שאלות ותשובות.
המשתמש ישאל שאלה:
"איך משנמכים את המנוי שלי מפרימיום לGold?"
אבל זה לא מה שיכנס למודל השפה.
מה שיכנס למודל השפה יהיה פרומט שיראה ככה: >>
6. "המשתמש שאל: איך משנמכים את המנוי שלי מפרימיום לGold?
מה התשובה בהתבסס על המידע הזה?
<כל עמוד הFAQ>"
כלומר, בעצם בכל פעם שהמשתמש ישאל שאלה נצרף אליה את כל המידע האפשרי, נארגן מחדש את הפרומפט ומודל השפה ידלה ממנו את התשובה.
מגניב? נכון. >>
7. היום יש מודלים עם קונטקסט של 100k טוקנים.
זה ספר שלם.
תיאורטית, אפשר להכניס בהם שאלה של שורה ואת כל הספר.
העניין הוא שמתן תחזית על בסיס כל כך הרבה טוקנים כל הזמן עולה בהמון משאבי מחשוב, ורוב המודלים בעלי קונטקסט קטן מידי.
לכן שווה לנצל כל טריק שנרצה שמבוסס על חיפוש קלאסי >>
8. נניח, לייצר אינדקסים כמו "מנוי", "כסף", "באג" וכו שיכניסו רק חלק מהמידע אל תוך הפרומט, ולבנות אותו בצורה של:
המשתמש שאל: __
האם נמצאת כאן התשובה?
<מידע>
ולגרום למודל לעשות פינג-פונג עם עצמו עד שתגיע תשובה מספקת, בשאיפה לחסוך בטוקנים.
9. השיטה מצריכה ה-מ-ו-ן יצירתיות בטריקים של איך לחסוך את הכנסת כל המידע לתוך הפרומפט, אבל מאפשרת שימוש נוח וקל במודלים שאומנו מראש בלי הצורך להכנס אל הקרביים שלהם ולשנות אותם מבפנים.
💣
על הבסיס זה התפחו כלים כמו LangChain שעושים את זה, בכינוי "Data Aware LLM" >>
10.יש כאן בעצם שתי משימות: 1. להבין איזה חלק מהדאטה רלוונטי לבעיה - ??? 2. להוציא מהדאטה את התשובה - זה מודל שפה (נגיד GPT).
הLangChain אחראי על הראשון, בכל מיני שיטות שדומות למה שהסברתי כאן. >> docs.langchain.com/docs/
11. אותי מעניין אפשר לבנות ארכיטקטורת ML משולבת.
מודלים עם קונקסט ענק זה יקר.
האם אפשר לבנות מודל שהתכלית שלו היא לקבל טקסט ענק ורק לזקק ממנו את החלק הרלוונטי בגודל K מילים (שזה סוג של סיווג בינארי), ואז על בסיס הזיקוק הזה מודל שפה כמו GPT יוכל לבצע RALM?
מעניין.
12. זהו להיום!
דעו שהפידבקים, השאלות וההתעניינות שלכן\ם נותנים לי המון מוטיבציה לכתוב.
היה מעניין ורוצים לתמוך?
רטווטו כדי שאוכל להגיע לעוד קהל! :)
רעיונות לדברים ששווה לדבר עליהם?
כתבו לי!
שבוע נפלא לכולם 😍
היום לא נדבר על ה"איך", נדבר על ה"למה".
תהיתם פעם למה רשתות נוירונים עובדות?
אם לא, ידעתן שהתשובה קצת מדכאת?
אז למה #בינהמלאכותית עובדת, ולמה דווקא רשתות נוירונים.
כמובן בלי צורך בידע קודם, קדימה 🧵 >> #פידטק#פידאטה#פידטכנולוגיה
1. אז למה אני מדוכא?
מאחורי רשתות הנוירונים נמצאת האמונה שכל מה שאנחנו עושים הוא בסוף.. פונקציה.
כן. אלה שלמדנו עליהן בתיכון, אלה שגזרנו, אלה שחישבנו להן אינטגרל. הפרק הזה בבגרות.
הבינה האנושית היא פונקציה.
בChatGPT, הx הוא הטקסט שאתם מכניסים. f(x) היא התשובה שלו.
2. זאת תפישה פילוסופית. זה אומר שכל תוצאה אפשר למדל כתרגיל מתמטי מורכב של הסיבה שגרמה לה.
הפונקציות המדוברות הן בדרך כלל פונקציות סטטיסטיות.
למה סטטיסטיות?
כי אם תשאלו אותי "מה נשמע" כשאובייקטיבית הכל נפלא בחיי, לפעמים אענה "הכל טוב", לפעמים "סבבה" ולפעמים "אחלה" >>
התגלית ששברה את עולם הבינה המלאכותית (והסטטיסטיקה) התרחשה ב..
2018?
כן. בערך 5 שנים.
היום נדבר על התופעה המוזרה המכונה Double Descent, שהותירה את גדולי המדענים פעורי פה.
קחו אוויר, ובואו איתי להבין מה קרה שם, כמובן ללא צורך בידע קודם 🧵 #פידטק#פידאטה#בינה_מלאכותית
>>
1. נתחיל בלדבר על מודל ה"בינה המלאכותית" החשוב ביותר שידוע לאנושות: הממוצע.
כן. הממוצע.
מה אנחנו מנסים להשיג בבינה מלאכותית?
במשפט, למזער את שגיאות המודל בביצוע משימה כלשהי. אם המשימה היא לחזות גבהים של סטודנטים, המודל הכי פשוט שיתן את השגיאה הנמוכה ביותר הוא הממוצע. >>
2. הממוצע מזקק בתוכו אינפורמציה על כל הקבוצה בפרמטר יחיד. הוא לא לומד את גבהי הקבוצה בע"פ, נכון? נכון, מלבד מקרה אחד.
מה הוא?
טוב, זה קל - כשיש חבר אחד בקבוצה.
הממוצע "למד בעל פה" את המידע שעליו הוא התאמן. אין הכללה, רק שינון. >>
היום נצלול אל מעמקי המוח של הAI.
תכינו את עצמכם לInception של עולם הGPT, כי לפני שלושה ימים הבינה המלאכותית התחילה להסביר את עצמה.
לא צריך (אך מומלץ) ידע מוקדם, רק הרבה סקרנות וקצת יראת כבוד.
שרשור על איך לומדים על AI עם AI, קדימה 🧵 >> #פידטק#פידאטה#פידטכנולוגיה
1. קודם כל, רקע במודלי שפה (LLM).
אם אין לכם שמץ מה קורה שם בקישקע של ChatGPT, מזמין אתכם לקפוץ לקרוא את השרשור הזה.
לא מאסט, אבל ממש-מאד-ממש מומלץ.
זה יעשה סדר, כי נכנס פה לאקטואליה.
נמשיך >>
2. רשתות נוירונים של מודלי שפה הן רעיון די מטורלל. מיליארדי פעולות מתמטיות שבסוף מתרגמות לאיזה משפט.
אבל איך?
מה קרה בבפנוכו שהביא את המודל להוציא משפט כזה? האם המודל שלנו מוטה?
גזען?
במילים אחרות - האם הוא "מיושר" (Aligned) עם הערכים האנושיים?
טוב, כולם מדברים על זה, אז הגיע הזמן לשרשור אקטואלי.
מסמך מודלף של גוגל: "אין לא לנו ולא לOpenAI יתרון אמיתי".
בואו נבין ביחד את המשמעות של המשפט הזה, ולמה (אולי) אנחנו בתחילתה של מהפכה בסדר גודל של הWWW.
דיסקליימר: מאמר מודלף שלא ברור מקורו.
בואו איתי >> semianalysis.com/p/google-we-ha…
1. קוד מקור הוא לא כמו ציור.
ציור אפשר להעתיק או לצלם. תוכנה לעומת זאת, גם אם יש לי אותה על המחשב, לא ניתן ברוב המוחלט של המקרים להנדס לאחור ולקחת לה את הקוד לשימוש שלנו.
בגלל זה ChatGPT הוא רק של OpenAI, ואת Bard אני לא סובל אז לא אגיד עליו כלום.
אמרנו את זה, נמשיך >>
2. גוגל בגדול אומרים: "אנחנו לא בכיוון של לנצח במירוץ הזה, אבל גם לא OpenAI".
המלחמה הגדולה שלהם היא בקוד הפתוח (Open Source). אלגוריתמים שזמינים לשימוש הציבור, אם למחקר או ממש לשימוש מסחרי.
הם בחינם ובאינטרנט, ומשודרגים ע"י הקהילה שרוצה לעשות טוב לאנושות >>
משתגעים להבין מה זה כל הGPT הזה?
אני במילואים, עייף וחסר יכולת להשקיע במטלות שלי, אז ברור שזה הזמן לכתוב שרשור.
היום נכנס לנבכי הLLM - "מודלי שפה ענקיים" וננסה להבין מה קורה בקישקע שלהם ואיך הם עובדים כלכך טוב.
כרגיל, לא צריך ידע במתמטיקה או מחשבים. #פידטק#פידאטה יאללה >>
1. נתחיל בהתחלה עם כותרת מפוצצת.
הGPT הוא חלק מקבוצת אלגוריתמים בשם LLM - Large Language Models שמבוססים על רשתות הנוירונים הקלאסיות (NN) עם ים שדרוגים.
אם NN היא קיר, אז LLM הוא סוג של עזריאלי.
אם הרעיון של NN זר לכם, מזמין אתכם לשרשור שלי בנושא >>
1.5. אמ;לק קצר לפני שנתחיל: הLLMs לוקחים את הטקסט, ממירים אותו למספר, חוזים מה המספר הכי סביר הבא, ממירים את המספר הכי סביר הבא לטקסט, והופ - קיבלנו תשובה מChatGPT. עכשיו נרד לעומק של המכונה המשומנת הזו.
איך זה קורה? >>
לקח לי יותר מידי זמן לכתוב את השרשור הזה, אבל אחת ולתמיד:
"רשת נוירונים", מה זה ואיך זה עובד.
בגלל (בזכות!) @StavKislev רוב העוקבים שלי מ #פידרפואה, אז כל האנלוגיות כאן יהיו מהתחום. #פידאטה , #פידטק 🧵
(כרגיל - אין צורך בידע במתמטיקה או במחשבים. או ברפואה.)
(1/16) נתחיל רגע בשאלה פילוסופית - מה המשמעות של הביטוי "ליישם ידע"? מה התוצר של "ללמוד"?
למידה היא כמו מפעל.
אל מפעל כתר נכנסים בלוקים של פלסטיק, ויוצאים כיסאות מהודרים ומוכנים לקטטה. משהו קורה שם באמצע במפעל של כתר.
כשרופא מאבחן מחלה, הוא מכניס אל תוך המוח
(2/16) את כל מדדי החולה - ופולט החוצה "עגבת"!
רשת נוירונים היא ניסיון לחקות את מה שקורה שם באמצע, בשפה שמחשב מבין.
הרשת מקבלת המון מספרים, ומוציאה החוצה המון (או מעט) מספרים. כן, זה עד כדי כך פשוט. יש שלושה עניינים מעניינים:
מה הם המספרים האלה, ואיך יוצרים אותם ומה משמעותם.