ماجستير في #علم_البيانات. مهتم بـ #Database, #MachineLearning
Mar 24, 2023 • 18 tweets • 3 min read
تقسيم البيانات إلى بيانات تدريب training وتحقق validation و اختبار testing
تعتبر من المفاهيم الأساسية في تعلم الآلة. لكن عدة مرات يتكرر علي هذا السؤال ويذكر بعضهم أنه تكرر عليه في كذا مقابلة.
في هذه التغريدات سأحاول توضيح لماذا نستخدمها والفروق بينهم.
بعد التعريفات هناك بعض الأسئلة التي سأحاول الإجابة عليها
ماهي النسبة الأفضل لتقسيم البيانات ٨٠٪ تدريب و ٢٠٪ إختبار. أو ٣٠:٧٠ أو ١٠:٩٠؟
ماهي طرق تقسيم البيانات أو كيف يتم التقسيم؟
إذا كان لدينا عدم موازنة في الكلاسات كيف نحلها؟
متى أستخدم التقسيم العادي أو cross validation؟
Dec 5, 2022 • 17 tweets • 5 min read
مفاهيم إدارة وحوكمة البيانات كثيرة ومتداخلة. في هذه التغريدات بنتعرف على بعض نقاط إدارة البيانات Data Management و حوكمة البيانات Data Governance والفرق بينهم.
#علم_البيانات
الهدف الأساسي من الاهتمام بالبيانات هو تحويلها إلى أصل ذو قيمة value
مثلاً إدارة وتحليل البيانات الصحية لشعب معين قد يساعد في بناء خطط وقاية تساهم في خفض تكاليف العلاج. هنا لها قيمة مادية تعادل ملايين.