วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale
บทความนี้พูดถึงเครื่องมือค้นหาข้อมูลที่ง่ายและรวดเร็วที่สุด ซึ่งเป็นผลงานที่คุณเห็นใน KDPV ที่น่าสนใจคือ Whale ได้รับการออกแบบให้โฮสต์บนเซิร์ฟเวอร์คอมไพล์ระยะไกล รายละเอียดภายใต้การตัด

เครื่องมือค้นหาข้อมูลของ Airbnb เปลี่ยนชีวิตฉันอย่างไร

ในอาชีพการงานของฉัน ฉันโชคดีพอที่จะแก้ปัญหาสนุกๆ ได้ ฉันเรียนคณิตศาสตร์โฟลว์ในขณะที่เรียนปริญญาที่ MIT ทำงานเกี่ยวกับแบบจำลองส่วนเพิ่ม และโครงการโอเพ่นซอร์ส ไพลิฟ ที่ Wayfair และใช้โมเดลการกำหนดเป้าหมายหน้าแรกใหม่และการปรับปรุง CUPED ที่ Airbnb แต่งานทั้งหมดนี้ไม่เคยดูน่าดึงดูดเลย อันที่จริง ฉันมักจะใช้เวลาส่วนใหญ่ในการค้นหา ค้นคว้า และตรวจสอบความถูกต้องของข้อมูล แม้ว่านี่จะเป็นสถานะที่คงที่ในที่ทำงาน แต่ฉันก็ไม่ได้คิดว่านี่เป็นปัญหาจนกระทั่งฉันไปถึง Airbnb ซึ่งได้รับการแก้ไขด้วยเครื่องมือค้นหาข้อมูล - พอร์ทัลข้อมูล.

ฉันจะหา {{data}} ได้ที่ไหน พอร์ทัลข้อมูล.
คอลัมน์นี้หมายความว่าอย่างไร พอร์ทัลข้อมูล.
วันนี้ {{metric}} เป็นอย่างไรบ้าง พอร์ทัลข้อมูล.
ความรู้สึกของชีวิตคืออะไร? ใน พอร์ทัลข้อมูล, อาจจะ.

โอเค คุณนำเสนอภาพแล้ว การค้นหาข้อมูลและทำความเข้าใจความหมาย วิธีสร้างข้อมูลและวิธีใช้งานใช้เวลาเพียงไม่กี่นาที ไม่ถึงชั่วโมง ฉันสามารถใช้เวลาในการหาข้อสรุปอย่างง่ายหรืออัลกอริทึมใหม่ (... หรือตอบคำถามแบบสุ่มเกี่ยวกับข้อมูล) แทนที่จะขุดคุ้ยบันทึก เขียนข้อความค้นหา SQL ซ้ำๆ และกล่าวถึงเพื่อนร่วมงานใน Slack เพื่อลองสร้างบริบทใหม่ที่คนอื่นมีอยู่แล้ว .

มีปัญหาอะไร?

ฉันรู้ว่าเพื่อนของฉันส่วนใหญ่ไม่สามารถเข้าถึงเครื่องมือดังกล่าวได้ มีบริษัทเพียงไม่กี่แห่งที่ยอมทุ่มเททรัพยากรมหาศาลเพื่อสร้างและบำรุงรักษาเครื่องมือแพลตฟอร์มอย่าง Dataportal และแม้ว่าจะมีโซลูชันแบบโอเพ่นซอร์สอยู่บ้าง แต่ก็มีแนวโน้มที่จะได้รับการออกแบบให้ปรับขนาดได้ ทำให้ยากต่อการติดตั้งและบำรุงรักษาหากไม่มีวิศวกร DevOps โดยเฉพาะ ดังนั้นฉันจึงตัดสินใจสร้างสิ่งใหม่

Whale: เครื่องมือค้นหาข้อมูลที่เรียบง่ายและโง่เขลา

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale

และใช่ พูดง่าย ๆ อย่างโง่เขลา ฉันหมายถึงง่าย ๆ อย่างโง่เขลา ปลาวาฬมีเพียงสององค์ประกอบ:

  1. ไลบรารี Python ที่รวบรวมข้อมูลเมตาและจัดรูปแบบใน MarkDown
  2. อินเทอร์เฟซบรรทัดคำสั่ง Rust สำหรับการค้นหาข้อมูลนี้

จากมุมมองของโครงสร้างพื้นฐานภายในสำหรับการบำรุงรักษา มีเพียงไฟล์ข้อความจำนวนมากและโปรแกรมที่อัปเดตข้อความ แค่นั้นแหละ ดังนั้นการโฮสต์บนเซิร์ฟเวอร์คอมไพล์อย่าง Github จึงเป็นเรื่องเล็กน้อย ไม่มีภาษาคิวรีใหม่ให้เรียนรู้ ไม่มีโครงสร้างพื้นฐานในการจัดการ ไม่มีการสำรองข้อมูล ทุกคนรู้จัก Git ดังนั้นการซิงค์และการทำงานร่วมกันจึงฟรี มาดูฟังก์ชั่นการทำงานกันดีกว่า ปลาวาฬ v1.0.

GUI ที่ใช้ git ที่มีคุณสมบัติครบถ้วน

Whale ได้รับการออกแบบให้ว่ายน้ำในมหาสมุทรของเซิร์ฟเวอร์คอมไพล์ระยะไกล เขา ง่ายมาก กำหนดค่าได้: กำหนดการเชื่อมต่อ คัดลอกสคริปต์ Github Actions (หรือเขียนสคริปต์สำหรับแพลตฟอร์ม CI/CD ที่คุณเลือก) และคุณจะมีเครื่องมือเว็บสำหรับค้นหาข้อมูลทันที คุณจะสามารถค้นหา ดู จัดทำเอกสาร และแบ่งปันสเปรดชีตของคุณได้โดยตรงบน Github

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale
ตัวอย่างของ stub table ที่สร้างขึ้นโดยใช้ Github Actions การสาธิตการทำงานเต็มรูปแบบ ดูในส่วนนี้.

ค้นหา CLI ที่รวดเร็วปานสายฟ้าสำหรับพื้นที่เก็บข้อมูลของคุณ

Whale อาศัยและหายใจบนบรรทัดคำสั่ง ให้การค้นหาที่ทรงพลังในมิลลิวินาทีทั่วทั้งตารางของคุณ แม้จะมีตารางหลายล้านตาราง เราก็สามารถทำให้ Whale มีประสิทธิภาพอย่างไม่น่าเชื่อได้โดยใช้กลไกการแคชที่ชาญฉลาด และสร้างแบ็กเอนด์ขึ้นมาใหม่ใน Rust คุณจะไม่สังเกตเห็นความล่าช้าในการค้นหา [สวัสดี Google DS]

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale
การสาธิตปลาวาฬล้านตารางการค้นหา

การคำนวณเมตริกอัตโนมัติ [ในรุ่นเบต้า]

สิ่งหนึ่งที่ฉันชอบน้อยที่สุดในฐานะนักวิทยาศาสตร์ข้อมูลคือการเรียกใช้คำค้นหาเดิมซ้ำแล้วซ้ำอีกเพื่อตรวจสอบคุณภาพของข้อมูลที่ใช้ Whale รองรับความสามารถในการกำหนดเมตริกใน SQL ธรรมดาที่จะกำหนดเวลาให้ทำงานพร้อมกับไปป์ไลน์การล้างข้อมูลเมตาของคุณ กำหนดบล็อกเมตริก YAML ภายในตาราง stub และ Whale จะทำงานโดยอัตโนมัติตามกำหนดเวลาและเรียกใช้การสืบค้นที่ซ้อนอยู่ในเมตริก

```metrics
metric-name:
  sql: |
    select count(*) from table
```

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale
เมื่อรวมกับ Github แนวทางนี้หมายความว่า Whale สามารถทำหน้าที่เป็นแหล่งข้อมูลกลางที่ง่ายสำหรับคำจำกัดความของเมตริก Whale ยังบันทึกค่าพร้อมกับการประทับเวลาในไฟล์ "~/. ปลาวาฬ/เมตริก" หากคุณต้องการทำแผนภูมิหรือการวิจัยเชิงลึกเพิ่มเติม

อนาคต

หลังจากพูดคุยกับผู้ใช้ Whale เวอร์ชันก่อนเผยแพร่ เราตระหนักว่าผู้คนต้องการฟังก์ชันการทำงานที่มากขึ้น ทำไมต้องเป็นเครื่องมือค้นหาตาราง? ทำไมไม่เครื่องมือค้นหาตัวชี้วัด? ทำไมไม่ตรวจสอบ? ทำไมไม่ใช้เครื่องมือดำเนินการแบบสอบถาม SQL? ในขณะที่ Whale v1 ถูกมองว่าเป็นเครื่องมือที่ใช้ร่วมกัน CLI อย่างง่าย Dataportal/Amundsenซึ่งได้พัฒนาเป็นแพลตฟอร์มแบบสแตนด์อโลนที่มีคุณสมบัติครบถ้วนแล้ว และเราหวังว่ามันจะกลายเป็นส่วนสำคัญของชุดเครื่องมือของ Data Scientist

หากมีบางสิ่งที่คุณต้องการเห็นในกระบวนการพัฒนา เข้าร่วมกับเรา ให้กับชุมชน Slack, เปิดประเด็นที่ Githubหรือแม้แต่ติดต่อโดยตรง LinkedIn. เรามีฟีเจอร์เจ๋ง ๆ มากมายอยู่แล้ว - เทมเพลต Jinja, บุ๊กมาร์ก, ตัวกรองการค้นหา, การแจ้งเตือน Slack, การรวม Jupyter หรือแม้แต่แดชบอร์ด CLI สำหรับเมตริก - แต่เราชอบข้อมูลของคุณ

ข้อสรุป

Whale ได้รับการพัฒนาและดูแลโดย Dataframe ซึ่งเป็นสตาร์ทอัพที่ฉันเพิ่งรู้สึกยินดีที่ได้ร่วมก่อตั้งกับคนอื่นๆ ในขณะที่ Whale สร้างมาเพื่อนักวิทยาศาสตร์ข้อมูล แต่ Dataframe ก็สร้างมาเพื่อนักวิทยาศาสตร์ข้อมูล สำหรับบรรดาของคุณที่ต้องการทำงานร่วมกันอย่างใกล้ชิดมากขึ้น อย่าลังเลที่จะ ที่อยู่เราจะเพิ่มคุณในรายการรอ

วิธีค้นหาข้อมูลอย่างรวดเร็วและง่ายดายด้วย Whale
และตามรหัสโปรโมชั่น ฮาเบอร์คุณจะได้รับส่วนลดเพิ่มอีก 10% ตามที่ระบุไว้บนแบนเนอร์

หลักสูตรเพิ่มเติม

บทความที่แนะนำ

ที่มา: will.com