, 11 tweets, 3 min read
كثر الطلب على مختصين في البيانات الضخمة Big Data تحت مسمى Data Scientist و قد يتجه الفهم فور قراءة او سماع كلمة Big Data نحو الحجم فقط . لكن هذا غير دقيق بمعنى ان 1 GB من البيانات قد تكون Big Data احياناً . في هذه السلسلة سأشرح المفهوم باختصار .
اذا اردنا ان نفهم شيء بصورة جيدة فلا يكفي أن نعرف ما هو ؟ لانه علينا ايضاً ان نعرف ما ليس هو ؟ . على سبيل المثال لدينا قاعدة بيانات بها Table يحوي بيانات معينة على احد قواعد البيانات المعروفة مثل Oracle و وصل حجم البيانات الى 100 تيرا بايت هل هذه Big Data ؟ إلى الان لا .
مازالت البيانات في تزايد و اصبح "السيرفر الأقوى" بطيء , قمنا بعمل Scale Up بأن رفعنا السعة التخزينية للاقراص الصلبة و رفعنا الذاكرة العشوائية إلى اقصى ما يدعمه الServer. لكن سيأتي يوم و لن نستطيع عمل المزيد من الScale Up.
في الRDBMS و تطبيقاتها مثل Oracle و MSSQL Server و MySQL , من الصعب توزيع بيانات جدول واحد على اكثر من جهاز خادم , يمكن عمل نسخة اخرى كـ DR بحيث لو حصلت مشكلة لجهاز سيقوم الجهاز الاخر بالخدمة , لكن مازالت البيانات هي نفسها في الجهازين اي مجرد نسخة , و مازالت المشكلة قائمة .
لو قلنا انه يمكن تقسيم ذلك الجدول الى اكثر من جدول مثل Table1 Table2 سنخلق مشكلة لدى المبرمج , لانه لو اراد البحث عن اي معلومة فعليه ان يبحث في الجدولين و ربما يزداد العدد فMySQL مثلا يدعم الجدول الواحد 2 تيرا احيانا حسب نظام التشغيل . فهذا الحل سيخلق مشاكل اخرى و نخسر الIndex.
للتغلب على المشكلة استخدمنا تقنية الNoSQL و اخترنا قاعدة بيانات Cassendra مثلاً لإمكانية تمثيل البيانات بنفس الهيكلة فيها بالاضافة إلى امكانية توزيع بيانات الجدول على اكثر من جهاز خادم بدون تدخل منا لانها تدعم تقنية Hadoop , و هذا يسمى Scale Out . هل هي Big Data الان ؟ لا .
لننتبه للفرق بين الScale Up و الScale Out . الاول يعني ان نزيد قدرة الServer و الثاني يعني ان نوزع العمل ليتقاسمه اكثر من سيرفر بتقنيات تسمى MapReduce . عندما نرسل امر تتلقفه جميع الخوادم و كل خادم يرد بما لديه من بيانات .
ال Big Data مصطلح و كلمة Big ليست وصف . لكن هذا ما ابتكره Roger Mougalas @rogerm عام 2005, هناك اربعة صفات إذا تحققت في بياناتك فهي Big Data و هي : Volume اي ان حجم البيانات كبير و Variety اي متنوعة و ليس لها قالب محدد يمكن هيكلتها تبعاً له كالTable بل هي متنوعة و غير موحدّة .
بقيّت صفتين و هما Velocity و تعني ان البيانات تأتي بشكل سريع و تحتاج لمعالجة ايضا بشكل سريع او آني real-time احياناً ثم بقي الـ Veracity و تعني ان البيانات ليست بالضرورة نظيفة و منقحة بل بها الكثير من الشوائب . هذه مجرد صفات . لكن الBig Data اشمل من ذلك .
الBig Data تتعدى موضوع تخزين البيانات او طبيعتها إلى عملية مكتملة تجمع هذه البيانات ذات الصفات السابقة و التي قد لايكون لها معنى في ذاتها و تعيد ابرازها بطريقة صورية Visualization للمستخدم كي يستطيع ان يبني عليها قرارات مثل Twitter Analytics.
في هذا الفيديو القصير( سبع دقائق ) , يشرح Roger Mougalas مبتكر مفهوم الBig Data ماذا كان يقصد بذلك المفهوم . فخذوا العلم من المصدر .

Missing some Tweet in this thread? You can try to force a refresh.

Enjoying this thread?

Keep Current with Ahmed Aljaberi

Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!