#التعلم_العميق أحد الأدوات المهمة لعالم البيانات ، و يُصنف على أنه أحد فروع #تعلم_الآلة التي تُركز على بناء شبكات عصبية مشابهة لخلايا الدماغ البشري ، وما يجعله مختلف عن الشبكات العصبية هو كونه يحتوي على أكثر من طبقة مخفية (عميقة) بعكس ANNs والتي تحتوي على طبقة مخفية واحدة
يُطلق مصطلح ML على أي خوارزمية تُمكن الآلة من التعلم باستخدام مجموعة من البيانات للعثور على معارف وأنماط ، ويشمل ML جميع أنواع الخوارزميات سواءً الموجهة (Supervised)أو الغير موجهة (Unsupervised) لاستخدامها في التصنيف (Classification)او التجميع (Clustering)او الانحدار (Regression)
الشبكات العصبية التكرارية (RNNs) مكنت الآلة من معالجة اللغات الطبيعية (NLP) وباستخدامها خرجت لنا تطبيقات مثل اليكسا، سيري، و كورتانا ، و تستخدم في الترجمة الآلية وتحليل الملفات النصية والصوتية ، بالمقابل مكنت الشبكات العصبية الترشيحية (CNNs) الآلة من معالجة الصور والنصوص في الصور
لتحليل البيانات الغير منظمة (unstructured data) جاءت خوارزمية RNN وكأنها تُفعل حاسة السمع للآلة من خلال التعرف على الأصوات، و جاءت CNN وكأنها تُفعل حاسة البصر للآلة من خلال التعرف على الصور ، كلاهما لديه القدرة للتعامل مع اللغات الطبيعية ، إن كانت RNN آذان الآلة فإن CNN عيونها
نرجع لتساؤل عالم البيانات المبتديء عن مسابقة Kaggle وهو موقع يعتبر مورد هائل لتعلم علم البيانات من خلال المشكلات التي يطرحها ويطلب من المشاركين بناء نماذج للتنبؤ ويتم التقييم بدقة كل نموذج ، مسابقة تشبه مسابقة السيارات في الفورملا لمعرفة الأسرع ، تختلف تفاصيل الطريق والهدف واحد
في سباقات الفورملا قد يُحسم فوز أحدهم بوصوله للهدف قبل الآخر بأجزاء بسيطة من الثانية ، كذلك المتسابقين في مضمار Kaggle كل منهم تحمله الخوارزمية التي يختارها لحل مشكلة معينة ، لينتهي المطاف بأحدهم بالفوز بدقة تفرق عن الآخر ربما بالعلامة العشرية الثالثة أو الرابعة فقط
يقول أنتوني جولدبلوم المؤسس والرئيس التنفيذي لشركة Kaggle أن الخوارزميات الفائزة في سباقات Kaggle تحكمها نوع بيانات المسابقة ، والتي بالإمكان تقسيمها إلى : ◀️ بيانات منظمة (structured data) و
◀️ بيانات غير منظمة (unstructured data)
يقول أنتوني: المسابقات التي تعتمد على بيانات منظمة الرابح الأكبر فيها دائماً خوارزمية Random Forest ، تفوقت عليها مؤخراً خوارزمية جديدة تُدعى XGboost ، فئات البيانات المنظمة يسيطر عليها "حلول مصنوعة يدوياً" تعتمد على المعرفة الكبيرة بمجال البيانات والخبرة في اختبار الفرضيات
فئة البيانات الغير منظمة الرابح الأكبر فيها دائماً #التعلم_العميق ، ممثلاً بـ CNN و RNN ، ونظرًا لأن نسبة عالية من المشكلات التي تُطرح في Kaggle هذه الأيام تعتمد على بيانات غير منظمة ، فمن المنطق ملاحظة تفوق خوارزميات التعلم العميق ، والتساؤل عن جدوى دراسة الخوارزميات التقليدية!
يجب التأكيد على أن هناك تحديات وصعوبات في استخدام خوارزميات #التعلم_العميق -الكلام هنا لكاتب المقال-:
⚫️ خوارزميات جشعة لا تشبع (تحتاج كم كبير من البيانات لتدريبها)
⚫️ بناءها من الصفر يحتاج أسابيع وربما أشهر
⚫️ مكلفة من ناحية جمع البيانات وعنونتها (Labeled)
مايزيد عن 80% من تطبيقات علم البيانات في سوق العمل اليوم تركز على التنبؤ بسلوك المستهلك ، مالذي يجعله يشتري؟ ، لماذا يستمر في الشراء؟ و مالذي يجعله يذهب للمنافس؟ ، هنا تكمن القيمة العالية في دمج #علم_البيانات في أنظمة العملاء للتوصية بالشراء ، أو حل المشاكل وتقديم عروض أفضل
كذلك يتم استخدام #علم_البيانات في إدارة سلسلة الإمداد (Supply Chain) المعتمدة على بيانات السلاسل الزمنية (time series) لمراقبة المعدات المستخدمة والتنبؤ بالصيانة، وكذلك يُستخدم مع البيانات الجغرافية لتخطيط المواقع والأسواق ، هذه التطبيقات تحتوي على بيانات منظمة وبيانات غير منظمة
على الرغم من أنه بالإمكان استخدام خوارزميات #التعلم_العميق مع تلك التطبيقات التي تحتوي على كم كبير من البيانات المنظمة والقليل من البيانات الغير منظمة إلا أنها ليست مناسبة من ناحية الكفاءة، بالإمكان بناء نموذج تنبؤي باستخدام خوارزميات #تعلم_الآلة بدقة مناسبةووقت قصير لتحقيق الهدف
بشكل عام الشركات لن تنتظر أسابيع وأشهر لحلول CNN أو RNN، في حين أنه بإمكانها الحصول على نتيجة مقاربة ، بكلفة أقل ووقت أقصر مع خوارزميات #تعلم_الآلة ، لذا وبكل تأكيد #التعلم_العميق لم ولن يجعل دراسة خوارزميات تعلم الآلة عديمة الجدوى ، ولكي تصبح عالم بيانات تحتاج دراستها واتقانها
• • •
Missing some Tweet in this thread? You can try to
force a refresh
الموازنة بين سهولة الاستخدام والحماية من المسلمات التي يعرفها التقنيين ومطوري البرمجيات، اعتقد ان البنوك بالغت مؤخراً في تسهيل العمليات دون بذل جهد إضافي للحماية، عمليات الاحتيال العديدة مثل ماهي محنة إلا أن بداخلها منحة، سأتكلم باختصار عن هذا الموضوع #علم_البيانات #تعلم_الآلة
عمليات الاحتيال تحمل بين طياتها سلوكيات المحتالين وأساليبهم، والتي يكررونها وينوعونها بين وقت وآخر، البلاغات التي ترد البنوك عن هذه العمليات ماهي إلا عملية (labelling) لكل عملية (transaction) بمعنى ان العمليات يتم تصنيفها مع الوقت إلى عمليات (آمنة) وأخرى (غير آمنة)
أحد استخدامات خوارزميات #تعلم_الآلة هي Anomaly Detection ويُقصد بها اكتشاف السلوكيات الغريبة (أو الشاذة)، بمعنى أن هناك سلوك طبيعي وسلوك غير طبيعي، عمليات الاحتيال تصنف على أنها سلوك غير طبيعي والتحدي الذي تحاول تعالجه هذه الخوارزميات كيف يتم الحكم على العملية (طبيعية أو شاذة)
كيف نتخذ قراراتنا؟
من أهم استخدامات #علم_البيانات إن لم يكن أهمها على الإطلاق #دعم_القرارات ، أسفل هذه التغريدة سأتكلم عن تطور عملية إتخاذ القرار ، ولماذا نحتاج اليوم أن ننتقل من قرارات تقودها البيانات إلى قرارات يقودها #الذكاء_الاصطناعي ؟
المصدر: hbr.org/2019/07/what-a…
تكيفت العديد من الشركات مع نهج "Data-Driven" لاتخاذ القرارات التشغيلية. يمكن للبيانات تحسين القرارات ، لكنها تتطلب "المعالج" المناسب لتحقيق أقصى استفادة منها ، يفترض الكثير من الناس أن المعالج لهذه البيانات هو (الإنسان)
للاستفادة الكاملة من القيمة الكامنة في البيانات يجب أن تُدخل الشركات تقنيات #الذكاء_الاصطناعي في إجراءات العمل اليومية ، بمعنى إخراج (الإنسان) من عملية اتخاذ القرار كلما كان ذلك ممكناً
هل يمكن للآلة ان تكتسب صفة الذكاء؟ هل يمكن أن تتعلم؟ #الذكاء_الاصطناعي و #تعلم_الآلة من أهم المجالات الحديثة التي دخلت في حياتنا اليومية ، هناك الكثير من التطبيقات والأمثلة ، في هذه السلسلة سنتحدث عن تعلم الآلة (Machine Learning) #علم_البيانات #العطاء_الرقمي
#تعلم_الآلة أحد فروع الذكاء الاصطناعي ، يعنى بتمكين الحواسيب والآلات من التعلم واتخاذ القرارات وتنفيذ المهام دون أن يتم برمجتها مسبقًا، من خلال خوارزميات تمكنها من التعلم الذاتي وتحليل البيانات المدخلة، وتنفيذ الأوامر وتحديد ما يجب إنجازه دون مساعدة بشرية
تعمل الخوارزميات كعقل مدبر للآلة، فتتألف من سلسلةٍ من الأوامر والإرشادات لتوجيه الآلة للكيفية التي يجب بها تنفيذ المهام، وتقوم الآلة بتخزين وتجميع ومعالجة كم هائل من البيانات بتكلفة مادية قليلة مقارنة بتكلفة الأيدي العاملة، واختيار القرار الأمثل بسرعة ودقة
يعجبك العمل مع البيانات وتفكر في الدخول في هذا المجال ، ولكن تعتقد أن القطار فاتك كونك موظف على رأس العمل ويصعب عليك الدراسة من جديد .. إذاً ما الحل؟ 🤔🙄
أسفل هذه التغريدة سأتكلم عن المسار المناسب لتحقيق حلم الدخول في عالم #علم_البيانات (Data Science)
علم البيانات مجال مفتوح على نطاق واسع ويدخل في كل المجالات تقريباً ، أينما وجدت بيانات سنحتاج إلى مختصين للتعامل معها ، الكثير مما نقرأه يشير إلى درجات الماجستير والدكتوراه كمتطلب للدخول في هذا المجال ، ولكن الحقيقة أن معظم الشركات لا تحتاج إلى هذا المستوى العالي من الشهادات
علماء البيانات يسدون فجوة أساسية تتمثل في الحاجة لمعالجة #البيانات_الضخمة (Big Data) من قبل الشركات والقطاعات الحكومية ، يقوم عالم البيانات بتنفيذ المبادرات المرتبطة بالبيانات ، ولكن إذا بحثنا عن المسمى الوظيفي في الغالب لانجده تحت أسم "عالم بيانات" ربما بمسميات أخرى
أزمة #كورونا تعلمنا 4 دروس في #علم_البيانات :
📌أهمية جودة البيانات والشفافية
📌أهمية عرض البيانات بطريقة غيرمتحيزة
📌إنشاء نتائج تحليلية لاتخاذ قرارات حكيمة
📌فهم واستيعاب تكلفة الخطأ الإيجابي والخطأ السلبي (False Positive/Negative)
التفصيل أسفل التغريدة linkedin.com/pulse/data-sci…
لا يمكن اتخاذ قرارات سليمة بدون بيانات موثوقة وعالية الجودة ، الثقة والشفافية في مصدر البيانات مهمة ، مثلاً لحساب معدل الوفيات نقسم "عدد الوفيات" على "عدد المصابين" ، الأول رقم موثوق به ولكن الأخير (عدد المصابين) هو تخمين لأن معظم البلدان لم تبدأ في إجراء الاختبار على نطاق واسع
يجب تقديم البيانات بطريقة محايدة وبمنظور غير متحيز حتى يساعد صناع القرار على اتخاذ قرارات فعالة، مثلاً الرسم المرفق يمثل حالات #كورونا في كوريا الجنوبية ، اليسار حالات مجمعة تعطي انطباع ان العدد في تصاعد بينما اليمين يوضح عدد الحالات اليومية ويشير ربما إلى تجاوز كوريا الذروة
اشتهرت قناة الاخبار الأمريكية فوكس نيوز (Fox News) باستخدام الرسوم البيانية (Data Visualization) بطريقة غير صحيحة جهلاً أو تضليلاً، بغض النظر عن الهدف تعالوا نستعرض أشهر الرسومات البيانية التي عرضتها القناة ونوضح كيف حدث التضليل؟ وماهو الخطأ في تمثيلهم للبيانات؟ #علم_البيانات
في السباق الرئاسي عام 2012م قامت القناة بتمثيل السباق بين ثلاث مرشحين بصيغة Pie Chart، هذا التمثيل يستخدم في الغالب لتوضيح الجزء من الكل بطريقة مئوية، أي كأنه كعكه يتم تقسيمها، المجموع في هذا التمثيل يجب أن يكون مائة، النسب الذي تم تمثيلها وصل مجموعها 193%!!
رسم يوضح أن الأثرياء في أمريكا سيشهدون زيادة كبيرة في سعر الفائدة إذا انتهت صلاحية تخفيضات بوش، الرسم يوحي بأن الزيادة كبيرة، بينما واقعياً 5% فقط
الخدعة التي أُستخدمت في هذا الرسم هي عدم البدء من صفر، وكأنهم عملوا zoom in لتقريب العمودين مما جعل الزيادة تبدو وكأنها كبيرة!