ממשלת ישראל 🇮🇱 חשפה שהיא תחלוק עם פייזר ״נתונים סטטיסטים״ לגבי החיסון. סקר קצר בטיווטר מראה שרבים מכם מעוניינים לדעת עוד על פרטיות, שיתוף מידע, וביג דאטה. התחום הזה היה אחד מנושאי המחקר של המעבדה שלי.

אז הנה השרשור🧵.
מתחילים!
👇👇👇
גילוי נאות: אני כותב כאן אך ורק בכובע האקדמי שלי. אין לי שום מידע פנימי לגבי העסקה עם פייזר ואני ניזון רק ממה שאני רואה בכלי התקשורת.
הרבה מהשרשור מתבסס על המאמר שלי ושל @random_walker ב @NatureRevGenet:
nature.com/articles/nrg37…
טוב, עכשיו באמת אפשר להתחיל. אמלק: אני בעד העסקה.
קודם כל נזכיר שהאפשרות לחלוק דאטה היא נשמת אפו של המדע המודרני. איך פיתחו לכם חיסון כל כך מהר? חוקרים בסין רצפו את הוירוס ו*חלקו* את המידע הזה כך שתוך יומיים חוקרים ב NIH יכלו לפתח עם מודרנה את החיסון. אותו כנ״ל להמון מחקרים וטיפולים. צריך למצוא דרך לחלוק מידע ולכבד את הפרטיות.
בגדול, ישנם שתי טכניקות מקובלות לשמירת פרטיות במידע: deidentification (התממה) ו aggregation (איגום נתונים). ישנם רעיונות יותר מתקדמים בספרות כמו differential privacy ו homomorphic encryption אבל הם יותר אקדמיים ופחות מעניינים אותנו בקשר לעסקה עם פייזר.
הרעיון בהתממה הוא דיי פשוט. פשוט מורידים מהרשומות שדות מזהים כמו ⛔️שם, ⛔️כתובת,⛔️תעודת זהות וכו׳ ואז הרשומות הם לא מזוהות. קל - נכון?
לא! 😬
בשנות ה 90, מסצ׳וסטס אפשרה לבתי חולים לחלוק רשומות רפואיות ללא מזהים לצורך מחקר. @LatanyaSweeney הראתה שהיא יכולה בקלות לזהות את הרשומה הרפואית של מושל המדינה 😱. הרשומות הכילו את המיקוד, המין, ותאריך הלידה של החולים. מסתבר של 60% מהאמריקאים הקומבינציה הזאת היא יחודית. אז...
לטניה פשוט לקחה את פנקס הבוחרים והצליבה בינו לבין הרשומות עד שמצאה את המושל.

כמה קל לזהות אנשים בתוך דאטה? בשביל זה, נכניס מושג טכני:״ביט״. ביט הוא יחידת מידע שחותכת לך את כמות האפשרויות בחצי.

נניח שצריך למצוא רוצח ויש לך 100 חשודים אקראיים. אז אם אני מספר לך שהרוצח הוא בעצם..
רוצחת אז בממוצע חתכתי לך חצי מהאפשרויות ונשארו לך רק 50 חשודים - כלומר הרווחת ביט אחד. אם אני מספר לך שהרוצחת היא שמאלית (15% מהאוכלוסיה), אז פסלנו בערך עוד 43 חשודים ונשארנו רק עם שבעה. כלומר הרווחנו עוד 2.7 ביט (=log2 של 0.15).
ואפשר להמשיך ככה עד שנזהה את האדם.

כמה ביט...
צריך כדי למצוא מישהו בתוך כל אוכלוסיית ישראל (9 מיליון איש)?
קל.
log2(9*10^6) = 23bits
זה הכל.
אז אם יש ברשומה גובה מדויק (5ביט), מין (ביט), שנת לידה (6.3ביט), סוג דם (2.2ביט), צבע עניינים (1.4ביט), עיר (6ביט), ומצב משפחתי (נניח ביט), כנראה יש לכם מספיק מידע כדי לזהות את הרשומה!
אז בוא נעשה סדר: אם יש לך רשומות רפואיות שכוללת מידע דמוגרפי מפורט ומאגר מידע טוב של כל עם ישראל (מישהו אמר אגרון 2006?), כנראה יש לך יכולת לזהות רשומות מותממות.

בוא רגע נעשה detour ונדבר על מידע גנטי (למרות שלא רלבנטי לפייזר כן מעניין בהקשרי פרטיות).
במידע גנטי המצב יותר פסיכי. ב 2013 הראנו שניתן לחלץ שמות משפחה מתוך גנומים "אנונימים". הרעיון הוא שגברים מקבלים בדרך כלל את שם המשפחה ואת ה Y-chromosome מאותו מקור. ולכן אם אני רואה את ה Y-chr, אני עשוי להבין את שם המשפחה ולטרגט את הבן אדם. עובד כמו קסם!
science.sciencemag.org/content/339/61…
חזרה למידע רפואי.
האם אנחנו צריכים להיות מודאגים מעסקת פייזר? לא בהכרח!

ל*מיטב הבנתי*, ההכרזה הייתה שיחלקו מידע סטטיסטי (aggregate data) ולא מידע אינדבידואלי מותמם.

מה זה מידע סטטיסטי? במקום לתת רשומות ללא מזהים, אנחנו פשוט נותנים את ההתפלגות של התוצאות. למשל, בבחירות...
אסור לחשוף את ההצבעה של כל מצביע, אבל ועדת הבחירות מפרסמת באופן תדיר את התפלגות הפתקים בכל קלפי. באותו אופן, אפשר לחשוף לפייזר את התפלגות האנשים שנדבקו לאחר החיסון בפילוח זמן וקבוצת גיל.

כל זמן שכל פלח מכיל מספיק אנשים (נניח מעל 100) קשה מאד לזהות מישהו בתוך הדאטה. כמה זה ״קשה״?
יש התקפות מתוחכמות שיודעות לחשוף מידע מתוך פלח. למשל, @nilshomer פרסם ב 2008 מאמר כזה:
נניח שאתה עושה מחקר על הגנטיקה של התמכרות לסמים קשים עם 100 מכורים. כדי לשמור על הפרטיות שלהם אתה רק חולק את ההתפלגות של כל מוטציה בגנום בקבוצה. המאמר הראה שאם יש לך גנום של מישהו, נגיד...
מועמד לעבודה, אתה יכול לבדוק אם הוא השתתף במחקר למרות שכל מה שיש לך זה התפלגויות. אם הוא השתתף - למדת עליו שהוא מכור לסמים קשים וחשפת עליו פרט מביך!

המאמר הזה עשה שמות בשיתוף דאטה גנטי.

אבל מאז למדנו כמה דברים:
1. אתה חייב דאטה סופר רב-מימדי כמו גנום. זה לא המצב בפייזר.
2. ההתקפה הזאת ודומות לה לא בשלות טכנית. הם הודגמו בעיקר כתרגיל אקדמי ודורשות מהתוקף ידע מוקדם נרחב שכנראה לא ריאלי (ואם יש לו את הידע הזה, מצבנו קשה בלי קשר).
3. גם כאשר ההתקפות האלה עובדות, הם לרוב מחזירות מידע באיכות ירודה.

הקונסזוס בקהילה שהסיכון מהתקפות כאלו הוא נמוך מאד.
ולכן, אני מעריך שכל זמן שהפלחים יהיו גדולים מספיק, אפשר להיות רגועים בהביטי פרטיות.

אבל השרשור הארוך הזה לא יהיה שלם בלי שלוש נקודות:
א. פרטיות היא אף פעם ערך בפני עצמו. כולנו מוותרים על בצורה מסוימת על הפרטיות שלנו כדי להשיג דברים כמו...
בדיקה רפואית או ככורח החוק: מיסים, בדיקות בשדה תעופה, צבא, וכו׳. תמיד יש סיכון מסוים כאשר חולקים מידע, אבל מצד שני מונח כאן על הפרק היכולת להביא חיסונים למדינה ובתקווה לסיים את המצב הארור הזה. יתרה מכך, הדאטה הזה חיוני לא רק לישראל אלא לאנושות כולה. לכן, אפילו אם יש סיכון מסוים,
אני חושב ששווה לקחת אותו כי המון מונח על הפרק.

ב. היה ראוי לשקיפות גבוהה יותר לגבי איזה דאטה פייזר תקבל. המון מהאנליזה שלי היא מבוססת על הנחות סבירות, אבל אני יכול לטעות. לכן, ראוי לחשוף עוד לציבור.

ג. אם הפרטיות נשמרת, ממשלת ישראל תעשה בחוכמה אם תפתח את הדאטה לכולם ולא...
רק לפייזר. אנחנו חלק מהאנושות, והולך להתבצע כאן הניסוי שדה הכי גדול של המאה ה 21: קורונה מול חיסון.

אי אפשר לסלא בפז את חשיבותו של הדאטה. כמו שחוקרים סינים חלקו עם העולם את הרצף של הוירוס ואיפשרו לאזרחי ישראל לקבל חיסון 11 חודשים לאחר מכן, 🇮🇱 יכולה לחלוק עם העולם האם החיסון
עובד כמתוכנן.

זהו. יצא ארוך אבל מקווה שהיה מעניין!
אה, ואני ממש אודה לכם אם תוכלו לרטווט . אין לי הרבה עוקבים בישראל וכתבתי בעברית כדי להנגיש לקהל הרחב 🙏🙏🙏.
וואו. השרשור הזה ייצר המון עניין. תודה רבה לכולם ☺🙌. עבדתי עליו אתמול רוב אחה"צ בתקווה שיהיו לו 100 קוראים. איזה כיף לדעת שיש קהל בטוויטר למדע בעברית. עושה חשק לכתוב עוד!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Yaniv Erlich

Yaniv Erlich Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @erlichya

1 Jan
Israel is now a population-scale lab to one of the greatest experiments. It is going to be very interesting few months from a scientific perspective.
A thread!
🧵👇🧵👇🧵👇
As of yesterday, >10% (~1M) of the population got the first dose of the @BioNTech_Group vaccine (~half of 60+ already got it).

While vaccine distribution is spectacular, covid19 cases raise fast. On top of that, we already have confirmed community transmission of the b.1.1.7🇬🇧🦠 Image
Israel is going to be the first country wide battling ground between the vaccine and the virus. And it is one of the best places to watch such a battle:
- Israel is among the top 10 countries with tests/capita
- Every citizen is part of one of four HMOs. All have #EHR. Image
Read 5 tweets
31 Dec 20
This year was not the best, but I don't think it was the worst one in the last century. So to make some lemonade out of lemons, here is a short thread with the top 5 good things that 2020 brought us, at least in my perspective. Please add yours! 1/7
1. Biology is everywhere. Many people who otherwise could not care less are now fascinated by the immune system, molecular biology, etc. This will create an Apollo effect. New generations of students and talent will come to the field after this pandemic. 2/7
2. Biotechnology is recognized as a real technology. The amazing speed of accomplishing a vaccine captures the imagination of the public and highlights the power of biotech, a fringe endeavor in the world of entrepreneurship. That means more VCs and funding for biotech. 3/7
Read 7 tweets
31 Dec 20
Israel vaccination operation is impressive not just by the per capita level but also in absolute numbers. This chart is not update to date and by now, Israel vaccinated over 800K people. By the end of the week, we are likely to pass the 1M mark (>10%). Image
Another reason for the swift execution is the Israeli attitude of "organized chaos". I visited two vaccine centers. The process focuses on speed rather than bureaucracy. Arrived early? Good. If there is a gap they will try to squeeze you in. End of the day? They will announce
if there are left over vaccines and first comes first served in order to avoid wasting them. The process is super fast and it takes a few minutes to get in and get out. You don't sign bullshit papers by lawyers. The nurse asks you a few questions, jab, zei gezunt and arrivederci!
Read 6 tweets
3 Sep 20
Israel is now first in the world for daily cases of covid19 per capita.

How the hell did we get here?
A cautionary tale in this long thread >>>
Theoretically, Israel had all necessary components to excel the fight against covid19.
✅ A small country
✅ Good nationwide public health system
✅ Population that is used to emergency situations
✅ A de-facto island with only one main gate to the world
And we did phenomenally well in March-May (check the green curve). We flattened the curve swiftly and rapidly. In fact, at the end of May, covid19 was almost extinct, with about ONE daily case per million >>>
Read 29 tweets
28 May 20
This new paper by @luisceze et al. is truly mind blowing and going to be a landmark in the DNA Storage domain.

biorxiv.org/content/10.110…

Why?🤔
A thread!
👇👇👇
DNA Storage has gained interest since the seminar work of @Nick_Goldman, @ewanbirney, @srikosuri, @geochurch in early 2013.

The main promise of DNA storage systems is that volumetric density of DNA is 4-5 orders of magnitudes better than traditional media.
But there are several problems with DNA Storage:
A. DNA as a medium is super expensive, about 5 orders of magnitude compared to traditional media.
B. Writing is freaking slow.
C. Reading bandwidth is super low. In fact, back in #AGBT18, we showed that the world sequencing...
Read 11 tweets
9 Mar 20
Are we going to see two waves of covid-19?
Let's look on previous outbreaks of respiratory viruses with similar R0s.
🧐 A thread
👇👇👇
Epidemiological data from previous pandemics show that typically the number of cases grows in two waves. For example, consider SARS-CoV 2003 outbreak as documented in Ontario CA. The first wave was from Mid March to early April, followed by a second wave in late May.
H1N1 hit London in 2009 in two waves:
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!