كيفية البحث عن البيانات بسرعة وسهولة مع الحوت

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت
تتحدث هذه المقالة عن أبسط وأسرع أداة لاكتشاف البيانات ، والتي ترى عملها على KDPV. ومن المثير للاهتمام ، أن الحوت مصمم ليتم استضافته على خادم بوابة بعيد. التفاصيل تحت الخفض.

كيف غيرت أداة اكتشاف البيانات في Airbnb حياتي

في مسيرتي المهنية ، كنت محظوظًا بما يكفي للعمل على بعض المشكلات الممتعة: لقد درست رياضيات التدفق أثناء حصولي على درجتي العلمية في معهد ماساتشوستس للتكنولوجيا ، وعملت على نماذج تدريجية ومع مشروع مفتوح المصدر بيليفت في Wayfair ، ونفذت نماذج استهداف الصفحة الرئيسية الجديدة وتحسينات CUPED في Airbnb. لكن كل هذا العمل لم يكن ساحرًا أبدًا - في الواقع ، غالبًا ما أمضيت معظم وقتي في البحث والبحث والتحقق من صحة البيانات. على الرغم من أن هذه كانت حالة ثابتة في العمل ، لم يخطر ببالي أن هذه كانت مشكلة حتى وصلت إلى Airbnb حيث تم حلها باستخدام أداة اكتشاف البيانات - بوابة البيانات.

أين يمكنني أن أجد {{data}}؟ بوابة البيانات.
ماذا يعني هذا العمود؟ بوابة البيانات.
كيف حال {{metric}} اليوم؟ بوابة البيانات.
ما معنى الحياة؟ في بوابة البيانات، من المحتمل.

حسنًا ، لقد قدمت الصورة. يستغرق العثور على البيانات وفهم ما تعنيه ، وكيف تم إنشاؤها وكيفية استخدامها ، بضع دقائق فقط ، وليس ساعات. يمكنني قضاء وقتي في استخلاص استنتاجات بسيطة ، أو خوارزميات جديدة ، (... أو الإجابة على أسئلة عشوائية حول البيانات) ، بدلاً من البحث في الملاحظات ، وكتابة استعلامات SQL المتكررة ، وذكر الزملاء في Slack لمحاولة إعادة إنشاء السياق. ملك.

ما هي المشكلة؟

أدركت أن معظم أصدقائي لا يستطيعون الوصول إلى هذه الأداة. عدد قليل من الشركات على استعداد لتخصيص موارد ضخمة لبناء وصيانة أداة النظام الأساسي مثل Dataportal. وعلى الرغم من وجود عدد قليل من الحلول مفتوحة المصدر ، إلا أنها تميل إلى أن تكون مصممة لتوسيع نطاقها ، مما يجعل من الصعب إعدادها وصيانتها بدون مهندس متخصص في DevOps. لذلك قررت إنشاء شيء جديد.

الحوت: أداة بسيطة لاكتشاف البيانات

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت

ونعم ، ببساطة أعني ببساطة بغباء. يتكون الحوت من عنصرين فقط:

  1. مكتبة Python تجمع البيانات الوصفية وتنسيقها في MarkDown.
  2. الصدأ واجهة سطر الأوامر للبحث من خلال هذه البيانات.

من وجهة نظر البنية التحتية الداخلية للصيانة ، لا يوجد سوى الكثير من الملفات النصية وبرنامج يقوم بتحديث النص. هذا كل شيء ، لذا فإن الاستضافة على خادم git مثل Github أمر تافه. لا توجد لغة استعلام جديدة للتعلم ، ولا بنية أساسية للإدارة ، ولا نسخ احتياطية. يعرف الجميع Git ، لذا فإن المزامنة والتعاون مجانيان. دعونا نلقي نظرة فاحصة على الوظيفة الحوت v1.0.

واجهة مستخدم رسومية كاملة الميزات قائمة على بوابة

تم تصميم الحوت للسباحة في محيط خادم بوابة بعيد. هو سهل جدا قابل للتكوين: حدد بعض الاتصالات ، وانسخ النص البرمجي لإجراءات Github (أو اكتب واحدًا لمنصة CI / CD التي اخترتها) وستحصل على أداة ويب لاكتشاف البيانات على الفور. ستتمكن من البحث في جداول البيانات الخاصة بك وعرضها وتوثيقها ومشاركتها مباشرة على Github.

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت
مثال على جدول كعب تم إنشاؤه باستخدام إجراءات Github. عرض عمل كامل انظر في هذا القسم.

ابحث CLI بسرعة البرق عن المستودع الخاص بك

يعيش الحوت ويتنفس في سطر الأوامر ، مما يوفر عمليات بحث قوية بالمللي ثانية عبر الجداول الخاصة بك. حتى مع وجود الملايين من الطاولات ، تمكنا من جعل الحوت ذو أداء مذهل باستخدام بعض آليات التخزين المؤقت الذكية وأيضًا عن طريق إعادة بناء الواجهة الخلفية في Rust. لن تلاحظ أي تأخير في البحث [hello Google DS].

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت
عرض الحوت ، مليون بحث عن طاولة.

الحساب التلقائي للمقاييس [في الإصدار التجريبي]

أحد أقل الأشياء المفضلة لدي كعالم بيانات هو تشغيل نفس الاستعلامات مرارًا وتكرارًا فقط للتحقق من جودة البيانات المستخدمة. يدعم Whale القدرة على تحديد المقاييس في SQL عادي والتي سيتم جدولتها للتشغيل جنبًا إلى جنب مع خطوط أنابيب تنظيف البيانات الوصفية. حدد كتلة مقاييس YAML داخل جدول كعب الروتين ، وسيتم تشغيل Whale تلقائيًا وفقًا لجدول وتشغيل الاستعلامات المتداخلة في المقاييس.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت
يعني هذا النهج ، جنبًا إلى جنب مع Github ، أن الحوت يمكن أن يكون بمثابة مصدر مركزي سهل للحقيقة للتعريفات المترية. يحفظ Whale القيم مع الطابع الزمني في "~ /. الحوت / المقاييس "إذا كنت تريد إجراء بعض الرسوم البيانية أو المزيد من البحث المتعمق.

المستقبل

بعد التحدث إلى مستخدمي إصداراتنا التجريبية من الحوت ، أدركنا أن الناس بحاجة إلى مزيد من الوظائف. لماذا أداة بحث الجدول؟ لماذا لا تكون أداة بحث المقاييس؟ لماذا لا تراقب؟ لماذا ليست أداة تنفيذ استعلام SQL؟ بينما تم تصميم Whale v1 في الأصل كأداة مصاحبة بسيطة لـ CLI Dataportal/Amundsen، فقد تطورت بالفعل إلى منصة قائمة بذاتها كاملة الميزات ، ونأمل أن تصبح جزءًا لا يتجزأ من مجموعة أدوات عالم البيانات.

إذا كان هناك شيء تريد رؤيته في عملية التطوير ، انضم إلينا لمجتمع Slack، افتح المشكلات في جيثبأو حتى الاتصال مباشرة لينكدين:. لدينا بالفعل عدد من الميزات الرائعة - قوالب Jinja ، والإشارات المرجعية ، وفلاتر البحث ، وتنبيهات Slack ، وتكامل Jupyter ، وحتى لوحة معلومات CLI للمقاييس - لكننا نحب إدخالك.

اختتام

تم تطوير Whale وصيانتها بواسطة Dataframe ، وهي شركة ناشئة كان من دواعي سروري مؤخرًا أن أشارك في تأسيسها مع أشخاص آخرين. في حين أن الحوت مصنوع لعلماء البيانات ، فإن Dataframe مصنوع لعلماء البيانات. لأولئك منكم الذين يرغبون في التعاون بشكل أوثق ، لا تتردد في ذلك عنوانسنقوم بإضافتك إلى قائمة الانتظار.

كيفية البحث عن البيانات بسرعة وسهولة مع الحوت
وعن طريق الرمز الترويجي حبر، يمكنك الحصول على خصم إضافي بنسبة 10٪ على الخصم الموضح على اللافتة.

المزيد من الدورات

مقالات مميزة

المصدر: www.habr.com