مهندس/ة بيانات
نبذة عن الدور
نبحث عن مهندس بيانات يتولى مسؤولية البنية التحتية للبيانات وخطوط معالجتها لدينا. ستكون مسؤولًا عن جمع البيانات من مصادر متنوعة، وبناء عمليات ETL وصيانتها، وضمان جودة البيانات واتساقها عبر أنظمتنا المختلفة. هذا الدور مناسب لشخص يمتلك عقلية حلّ المشكلات ويستمتع بتحويل البيانات الفوضوية وغير المنظمة إلى مجموعات بيانات نظيفة وموثوقة.
المسؤوليات الرئيسية
جمع البيانات واستخراجها
تصميم وتطوير وصيانة أدوات استخراج البيانات من المواقع الإلكترونية.
التعامل مع التنقل المعقد داخل الصفحات، والتصفح متعدد الصفحات، والجلسات التي تتطلب تسجيل دخول.
التكامل مع الواجهات البرمجية الخارجية (APIs) لجلب البيانات ومزامنتها.
تنزيل الملفات ومعالجتها من مصادر متعددة.
مراقبة مصادر البيانات لاكتشاف أي تغييرات أو تحديثات.
تطوير خطوط ETL
بناء وصيانة خطوط ETL / ELT لنقل البيانات بين الأنظمة.
تنظيف البيانات الخام وتوحيدها وتحويلها إلى صيغ منظمة.
التعامل مع تحويل تنسيقات البيانات وربط المخططات البنيوية (Schema Mapping).
تنفيذ عمليات تحميل البيانات الكاملة أو التدريجية.
جدولة سير عمل البيانات وأتمتته.
جودة البيانات والتحقق منها
وضع قواعد تحقق لاكتشاف التناقضات والحالات الشاذة.
إنشاء آليات لفحص الحقول المفقودة، والتكرار، وأخطاء أنواع البيانات.
إعداد مؤشرات لمتابعة جودة البيانات ومراقبتها.
تفعيل السجلات والتنبيهات عند تعطل خطوط البيانات.
توثيق مشكلات البيانات والعمل على معالجتها.
حوكمة البيانات والتوثيق
الحفاظ على توثيق واضح لمصادر البيانات، والمخططات البنيوية، وخطوط المعالجة.
تحديد معايير البيانات وآليات التسمية وفرض الالتزام بها.
تتبع مصدر البيانات وتسلسل تحولاتها.
ضمان اتساق البيانات بين مختلف الأنظمة.
الأدوات والأتمتة
تطوير سكربتات وأدوات باستخدام Python لمعالجة البيانات.
أتمتة المهام المتكررة المرتبطة بالبيانات.
بناء أدوات داخلية لمراقبة البيانات وتشخيص المشكلات.
تحسين العمليات الحالية لرفع الكفاءة والاعتمادية.
المتطلبات التقنية
المهارات المطلوبة
الخبرة
خبرة لا تقل عن سنتين في هندسة البيانات، أو تطوير عمليات ETL، أو مجال ذي صلة.
البرمجة
إتقان قوي للغة Python في معالجة البيانات والأتمتة.
خبرة في مكتبات البيانات مثل Pandas وNumPy أو ما يماثلها.
خبرة في استخراج البيانات من الويب باستخدام أدوات مثل BeautifulSoup وScrapy وSelenium أو ما شابهها.
معالجة البيانات
خبرة في بناء خطوط ETL / ELT.
القدرة على التعامل مع صيغ ملفات متنوعة مثل CSV وExcel وJSON وXML.
معرفة بأساليب تنظيف البيانات وتحويلها.
القدرة على التعامل بكفاءة مع مجموعات بيانات كبيرة.
المهارات الشخصية
عقلية تحليلية وقدرة قوية على حل المشكلات، خصوصًا عند التعامل مع بيانات غير منظمة أو غير متسقة.
دقة عالية في الانتباه للتفاصيل.
القدرة على العمل بشكل مستقل وتحمل المسؤولية.
مهارات تواصل جيدة للتعاون مع أعضاء الفريق.
الدافعية الذاتية والمبادرة في اقتراح التحسينات.
مهارات إضافية مفضلة
خبرة في أدوات جدولة وإدارة سير العمل مثل Airflow أو Prefect أو أنظمة الجدولة المعتمدة على cron.
خبرة في منصات الحوسبة السحابية مثل AWS أو GCP أو Azure.
معرفة بمفاهيم مستودعات البيانات.
خبرة في التعامل مع البيانات متعددة اللغات.
خلفية في مصادر البيانات الإحصائية أو الحكومية.
معرفة بأدوات تصور البيانات.
ما الذي ستعمل عليه
بناء أدوات لجمع البيانات من مواقع ومصادر متنوعة.
إنشاء خطوط بيانات مؤتمتة تعمل وفق جداول زمنية محددة.
تحويل البيانات الخام إلى صيغ نظيفة وموحدة.
ضمان جودة البيانات واتساقها في جميع مجموعات البيانات.
تطوير أدوات لمراقبة مشكلات البيانات وتشخيصها.
التعاون مع الفريق لتلبية متطلبات البيانات المختلفة.
كيفية التقديم
يرجى إرسال ما يلي:
سيرتك الذاتية
وصفًا مختصرًا لمشروع ذي صلة في هندسة البيانات أو استخراج البيانات عملت عليه
روابط إلى GitHub أو ملف أعمالك، إن وجدت (اختياري)