Or Hiltch Profile picture
Dec 4 48 tweets 14 min read
אז הגיע הזמן הזה בשנה שבו אני צופה בכל ה-Keynotes מ #reInvent2022 של @awscloud כדי שאתם לא תצטרכו!

ארכז פה את ההכרזות המעניינות, עם דגש על דטה ו-ML, אבל לא רק. מאחר וזה הולך להיות ארוך, יש מקרא emoji: חידושים ב-AI (🤖), חידושים בדטה (📊) וסתם דברים מגניבים שאהבתי (☁️): Image
לפני שצוללים, כמה Themes שעלו מההכרזות:

1.🤖 אמזון מרחיבים את ה-offering סביב שירותי הדטה ו-ML כדי להתחרות יותר ב-Databricks. זה בא לידי ביטוי במספר הכרזות שביחד משחזרות כמה מה-Signature Features של Databricks, כמו שתקראו למטה. לדעתי זה דבר שהיה צריך לקרות מזמן, ועל חשבון מגוון Image
פיצ׳רים אחרים שאמזון שיחררו ב-SageMaker בשנים האחרונות (ושלדעתי אף אחד לא משתמש בהם).

באופן דומה, אמזון סימנו את תחום ה-GeoSpatial כקטגוריה למיקוד תחת SageMaker, ומתחרים בענקית אחרת, ESRI, באיזורים מסויימים. Image
2.📊 אמזון הציגה את חזון ה-“Zero ETL”. הרעיון הוא להרחיב את יכולות ה-No/low code בכל מה ש קשור באינטגרציות דטה. תהליך מבורך וסופר שימושי, גם אם בסיסי. האמת שהעובדה שאינטגרציות דטה באמזון לא ממש עובדות ככה היום היא די מפתיעה – בכמה עננים מתחרים זה קיים במידה, Image
(לא מזמן החמאתי פה למיקרוסופט על ה-no code indexer המצוין של Azure).
3. מבחינת החוויה ב-Keynotes עצמם, אם פעם היו מרכזים הכרזות של פיצ׳רים (אפילו קטנים יחסית) ב-Keynote, היום זה הרבה יותר Show, עם לקוחות שעושים דברים מעוררי השראה (פיתוח תרופות לסרטן וכו׳ והרבה פירוטכניקה. למי שנוכח פיזית זו באמת חוויה מדהימה. לצפיה מרחוק זה כנראה מבאס.
אז יאללה, נתחיל בחידושים בתחום ה-AI. קבלו 7 הכרזות מעניינות הכנס (לא ממויין לפי סדר חשיבות):
1. 🤖 שוחרר הדור הבא של Notebooks ב-AWS. המחברות האלה הן משהו פשוט ושימושי שהרבה DSים (Data Scientists) אוהבים. עד היום הן היו בסיסיות, פשוט Jupyter Notebook עם בקאנד מנוהל אוטומטית (במקום איזו מכונה על EC2). היום הן מקבלות שלושה שיפורים חשובים ומגניבים:
א. 🤖 אינטגרציה עם Data Wrangler לטובת Data Prep (אבחון בעיות וניקוי של הדטה) בתוך ה-Notebooks עם חבילת sagemaker_datawrangler. איך זה עובד? החבילה מספקת ממשק מעל Pandas DataFrames, ומספקת UI שמוזרק לתוך המחברת בעת הדפסה של ה-df. בתוך ה-UI הזה ניתן לבצע פעולות ניקוי למינהן Image
(להיפטר משורות עם ערכים בעיתיים וכו׳). בלחיצה על Apply, החבילה מג׳נרטת את קוד הפייתון לביצוע הטנספורמציות ומזריקה אותו לתא מתחת. Image
ב. 🤖 תמיכה בעריכה קולבורטיבית של מחברות (*אהמ אהמ* קולאב), ״גוגל דוקס סטייל״. Image
ג. 🤖 אוטומציה של הרצת מחברות עם SageMaker Notebook Jobs. זה פיצ׳ר חזק ביותר (שקיים בצורה דומה ב-Databricks) כי הוא מאפשר ל-Data Scientist שעובדת ב-Notebook להפוך לכלי אורקסטרציה לג׳ובים ברמה של פרודקשן (מה שעד היום דרש פיתוח נפרד, בד״כ בידי מהנדס אחר). ImageImage
אגב בזמנו בסקייליין פיתחתי משהו דומה לזה כאופן סורס - github.com/orcaman/nb_to_…
2. 🤖 יכולות משופרות לעשות אריזה למחברות ומודלים כ-Shareable Artifacts עם SageMaker JumpStart. זו יכולת ממש מגניבה לייצר קטלוג מחברות ומודלים שיוזרים אחרים בארגון יכולים לגשת אליו, למצוא מה שרלוונטי להם, לכוונן פרמטרים ולהריץ. חזק מאוד לדעתי. ImageImageImage
3.🤖 תמיכה ב-Data Wrangler Pipelines בתהליך ה-Inference: עד עכשיו, אם עשיתם שימוש ב-Data Wrangler כדי לייצר טרנספורמציות בתהליך הכנת וניקוי הדטה – באופן טיפוסי בצד של ה-Training של המודל, הייתם צריכים לקודד מחדש באופן ידני את כולן בצד ה-Inference (הקוד שקוראים לו כדי לייצר Image
פרדיקציה), כי הוקטור שמתקבל כקלט צריך לעבור אותן כדי שהמודל יוכל לעבד אותו. עכשיו ניתן לשחזר את אותן טרנספורמציות באופן אוטומטי לשימוש בצד ה-Inference.
4. 🤖 כלי governance ל-SageMaker: זו הכרזה שמורכבת משלושה רכיבים סביב הנושא של governance:
א. סט מובנה של Roles לפי Use cases (למשל כדי לייצר הפרדה בין הרשאות ל-Data Scientist מול ה-MLOps, הראשונה צריכה גישה לS3 והרצת ניסויים, השני צריך צריך גישה לייצר Jobs ו-Endpoints, גישה ל-ECR וכו׳. ImageImage
ב. יישות חדשה שאמור לרכז את כל ה-metadata על המודל – SageMaker Cards. דברים כמו הביצועים שלו מצד אחד אבל גם מטרות השימוש והסיכונים ImageImageImage
ג. דשבורד מודלים שמציג את כל ה-Cards הנ״ל Image
5.🤖 הכרזה מיוחדת בנוף: אמזון החליטו לקחת את הנושא של GeoSpatial Analysis ברצינות ולהקדיש לו סקשן משל עצמו ב-SageMaker. ביחד, הכלים האלה יכולים להתחרות בפלטפורמה של ESRI שהיום שולטת בשוק הזה. ל-SageMaker Studio הולך להתווסף מקטע בשם GeoSpatial שיש בו ארבעה Wizards למטרות שונות: ImageImage
א. Earth Observation jobs: איזור ב-SageMaker שלוקח אתכם שלב אחרי שלב ביצירת תובנות על סמך צילומי לווין (ממקורות מידע כמו לוויני Copernicus Sentinel- שכבר נמצאים ב-Open Data של AWS). המודלים הנתמכים כרגע הם Spectral Index, Cloud Masking, Land Cover Segmentation, ואני לא אעמיק ImageImage
בזה כאן יותר מזה - מדובר בגדול בסט של pretrained ML models ואופרטורים לתמרון דטה גיאוגרפי שמשולבים בסטודיו בצורה יפה.
מעבר לעבודה בתוך הסטודיו, ניתן כמובן גם לייצא את העבודה ל-SageMaker Notebook ולהמשיך שם יותר פריסטייל בפייתון.
ב. Vector Enrichment jobs – מתוך SageMaker Notbooks, ניתן לאתחל ג׳ובים שמטרתם להעשיר את הדטה במידע גיאוגרפי. הקלאסי זה Reverse Geocoding (המרה של קואורדינטות לכתובת – פעולה שכיחה מאוד גם אצלנו ב-JLL, כשאנחנו רוצים להבין מה סט הכתובות האפשרי של נכס נדל״ן) Image
ו- Map Matching (מיפוי של קואורדינטות GPS למקטעים של דרכים וכבישים במפה).
ג. כלי ויזואליזציה למפות מובנה בסטודיו – כלי שיודע לקבל GeoJSON (פורמט סטנדרטי לתיאור של מידע גיאוגרפי) ולרנדר אותו על מפה. אפשר לטעון כמה דטסטים ביחד כמובן (נניח בתי ספר ממקור אחד ונכסי נדל״ן ממקור אחר) Image
ד. SageMaker Notebooks שמגיעים עם ספריות מותקנות מראש לצרכי תמרון דטה גיאוגרפי – GeoPandas, Rasterio, GDAL, Fiona ועוד.
6.🤖 הוכרז SageMaker Shadow Testing – פיצ׳ר חמוד ב-SageMaker Endpoints שמאפשר Traffic Split בין מודלים לטובת A/B Testing (בסגנון מה שכבר קיים ב-AWS Lambda). נכון לעכשיו, יש דשבורד שמראה מטריקות לא מעניינות לדעתי (בעיקר סביב צריכת זיכרון, CPU וכו׳), ImageImage
אבל אפשר לצפות שבעתיד יהיה אפשר לחבר לשם כל CloudWatch Metric.
7.🤖 אמזון CodeWhisperer מעלה הילוך: נוספה תמיכה ב-SSO (ללקוחות Enterprise בעיקר) ובכמה שפות (C# ו-TypeScript, עד עכשיו היה רק Python, Java ו-JavaScript). פגשתי את מי שאחראי על המוצר באמזון בכנס ומאוד התרשמתי מהכיוון שזה הולך אליו. תחרות אמיתית ל-Copilot, במיוחד לארגונים גדולים.
יאללה, עברנו להכרזות בתחום הדטה 📊:
1.📊 יריית הפתיחה של חזון ה-Zero ETL: שתי אינטגרציות No code ל-Data Warehouse של אמזון, Redshift: auto copy from S3 ו-Aurora Zero-ETL Integration. השמות די מסבירים את עצמם אז לא אעמיק פה. מדובר בשתי יכולות אמנם בסיסיות למדי אבל סופר שימושיות, ImageImage
ואני בטוח שיאיצו את האדופשן של Redshift / ישפרו flows קיימים שנכתבו ״ידנית״.
2.📊 סיבה לדאגה ל-Databricks? עטיפת Athena מעל Spark. כמו שפעם היינו חייבים לטעון קבצי CSV ל-SQL על מנת לתשאל אותם, ו-Athena אפשר לעשות את זה ישירות מעל S3, עכשיו ניתן לעשות את אותו הדבר לפרקטים מבלי להרים Spark Cluster. ImageImage
המשמעות: עבודה עם Spark DataFrames, Spark SQL בצורה “Serverless” מתוך Jupyter Notebook מעל אמזון. Image
3.📊 המלחמה עם elastic מעלה הילוך: הוכרז OpenSearch (ה-Clone של אמזון ל-ElasticSearch) בגירסת Serverless. כמו כל Serverless infa, המטרה היא לחסוך למפתחים התעסקות עם המשאבים של הקלאסטר ולתת לפלטפורמה לעשות Scaling בצורה אוטומטית על בסיס העומס.
התוצאה של זה בפועל היא חיסכון בעלויות (לא חייבים להחזיק קלאסטר גדול כל הזמן במקרים שבהם קשה לצפות ספייקים בעומס).
4.📊 אינטגרצית Spark ל-Redshift: האינטגרציה מאפשרת טעינה של דטה מתוך Redshift אל Spark SQL DataFrames, וכתיבה שלהם בחזרה אל טבלאות ב-Redshift. בגדול אמזון לקחו אופן סורס שעושה את זה (github.com/spark-redshift…) ובנו מעליו (ובמקומו) משהו רשמי.
5.📊דיפלוי Blue/Green ל-RDS: זה פיצ׳ר שהולך לחסוך כאב ראש גדול להמון אנשים. אחת הדרכים לעדכן DB בפרודקשן (״כחול״) היא ע״י החלפה שלו בגירסה מסונכרת מסביבת הסטייג׳ינג (״ירוק״) שמכילה עדכונים. היום אנחנו עושים את זה בצורה ידנית (בקוד כמובן), והפיצ׳ר הזה ישדרג אותנו למשהו מנוהל ImageImage
ועכשיו, לקטגוריה האחרונה של הכרזות: סתם דברים מגניבים שאהבתי בלי קשר לדטה ו-ML:
1.☁️ תמיכה ב-Parallel Map ל-Step Functions. למי שלא מכיר/ה, Step Functions זה Workflow Manager כזה של אמזון שמאפשר למדל Processing Pipeline בצורה ויזואלית או בקוד. לרוב כל שלב בפייפליין הוא למדה שעושה משהו (טרנספורמציה לדטה, I/O וכו׳). עד היום, Image
היה אפשר לייצר לולאה שמוגבלת ב40 הרצות של הפייפליין במקביל. העדכון שהוכרז מאפשר לעשות הרצה מקבילית של עד 10,000 ״צעדים״ (למדות), מה שהופך את כל הפלטפורמה הזו ליותר מעניינת לצרכי עיבוד נתונים ובכלל.
2. ☁️ שיפור בעיית ה-Cold Start בלמדה עם Lambda SnapStart: אחת הבעיות המוכרות בלמדה היא בעית ה-Cold Start. מצד אחד, אנחנו מרוויחים פונקציה ללא ניהול תשתיות, ומשלמים עליה רק מתי שהיא רצה, ברמת השניה. מצד שני, זה אומר כאשר אף אחד לא משתמש בפונקציה, Image
הסביבה שלה יורדת, ואז אם יש בקשה חדשה פתאום, היוזר חוטף דיליי רצחני בגלל הזמן שלוקח לאתחל את הסביבה (זה במיוחד בעייתי כשטוענים ספריות כבדות ויכול להגיע גם ל10 שניות). הפיתרון לזה עד היום היה לא להשתמש בלמדה, או לעשות Provisioned Concurrency – להחזיק מראש סביבות למעלה כל הזמן רק
למקרה שיגיעו יוזרים אחרי תקופה ממושכת של חוסר פעילות. אבל זה פיתרון יקר (יש שרתים שמוקדשים לנו עם הסביבות האלה כל הזמן), ולא נותן מענה למקרה שיש exceptions בקוד וצריכים להרים סביבה חדשה. SnapStart בא לפתור (או לשפר את זה):
מאחורי הקלעים, מיד אחרי ה-Init הראשון של פונקצית למדה חדשה, הפלטפורמה לוקחת Snapshot של הזיכרון ושמה אותו באיזה Cache (שפג אחרי 14 יום של חוסר פעילות או פיבלוש של גירסה חדשה). זה מאפשר לאתחל סביבות למדה הרבה יותר מהר במקרה של חוסר פעילות ומקצר את ה-Cold Start משמעותית
3.☁️ דטה סקיוריטי ב-CloudWatch: מכירים את זה שאתם מדפיסים מידע רגיש ב-GitHub Actions או כל טרמינל מנוהל אחר ובמקום המידע רואים כוכביות (******)? אז בשעה טובה זה מתאפשר עכשיו מעל CloudWatch Logs. יש מעל 100 תבניות built in לבחור מהן (דטה רגיש בעולמות ברפואה, פיננסים וכו׳)
כדי לבקש מ-CloudWatch למסך דטה רגיש בלוגים.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Or Hiltch

Or Hiltch Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @_orcaman

Dec 27, 2021
אני חייב לנסות להציל פה כמה נפשות תועות משימוש ב-GitHub Actions. אני חושב שזה מוצר שהולך להיות מדהים יום אחד (באמת שיש שם הרבה דברים יפים והחזון של לחתוך את החוליה של ה-CI כשירות נוסף מגניב), אבל כרגע הוא פשוט לא קרוב לתחרות (= CircleCI).

להלן כמה דוגמאות: >>
1. תעיפו מבט על @githubstatus בטוויטר. בגדול כל שני וחמישי יש outage. אני אישית נתקלתי בזה במהלך העבודה וזה א׳ מנע ממני לדפלה כמה פעמים וגרוע מכך, היה לי בילד שנתקע, מבלי אפשרות לבטל - וברגע שה-outage נגמר, הבילד השתחרר וקיבלתי דיפלוי לא מתוכנן >>
2. מבחינת מהירות, הם *הרבה* יותר איטיים מ-Circle CI - אפילו בשימוש המכונה הדיפולטיבית בסירקל (ואפשר בהחלט להשמיש מכונות חזקות בהרבה יותר). הנה השוואה לדוגמה שמישהו עשה כאן (blog.theodo.com/2019/12/github…). די נורא! >> Image
Read 5 tweets
Dec 20, 2021
ה-Exploit האגדי של NSO עם ניצול החולשות ב-iMessage הזכיר לי סוג של "חולשות" שעוסקים בהן הרבה בארץ: חולשות שמנוצלות ע"י תעשיית ה-Ad Tech.

זה שום דבר בסקייל אגדי כמו מה שעשו ב-NSO, אבל יש כמה הקבלות לעולם חקר החולשות גם שם.

דיסקליימר: אף עיתונאי לא נרצח כחלק מהעבודה הזאת >>
הנה סיפור מהתקופה שלי ב-@StreamRail על איך כבשנו את עולם ה-autoplay לוידאו במובייל ווב (h264 אמיתי ארוז ב-mp4 בביצועים גבוהים, לא גיף/הנפשה של תמונות) בימים שבהם זה היה נחשב לבלתי אפשרי.

דיברתי יותר לעומק על הפרטים הטכניים של מה שעשינו בכנס YGLF בזמנו:
עולם הפירסום באינטרנט הוא מירוץ אינסופי של חתול-ועכבר. העריצים בשוק - חברות הדפדפנים - מכילים מגבלות ומציבים דרישות כל הזמן, ובמקביל, חברות האדטק מנצלות פרצות כדי להתגבר על המגבלות הללו.

מגבלה אחת רצינית (שמאז הוסרה!) היא על ניגון אוטומטי של וידאו במוייבל וויב >>
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(