บทความนี้พูดถึงเครื่องมือค้นหาข้อมูลที่ง่ายและรวดเร็วที่สุด ซึ่งเป็นผลงานที่คุณเห็นใน KDPV ที่น่าสนใจคือ Whale ได้รับการออกแบบให้โฮสต์บนเซิร์ฟเวอร์คอมไพล์ระยะไกล รายละเอียดภายใต้การตัด
เครื่องมือค้นหาข้อมูลของ Airbnb เปลี่ยนชีวิตฉันอย่างไร
ในอาชีพการงานของฉัน ฉันโชคดีพอที่จะแก้ปัญหาสนุกๆ ได้ ฉันเรียนคณิตศาสตร์โฟลว์ในขณะที่เรียนปริญญาที่ MIT ทำงานเกี่ยวกับแบบจำลองส่วนเพิ่ม และโครงการโอเพ่นซอร์ส
ฉันจะหา {{data}} ได้ที่ไหน พอร์ทัลข้อมูล.
คอลัมน์นี้หมายความว่าอย่างไร พอร์ทัลข้อมูล.
วันนี้ {{metric}} เป็นอย่างไรบ้าง พอร์ทัลข้อมูล.
ความรู้สึกของชีวิตคืออะไร? ใน พอร์ทัลข้อมูล, อาจจะ.
โอเค คุณนำเสนอภาพแล้ว การค้นหาข้อมูลและทำความเข้าใจความหมาย วิธีสร้างข้อมูลและวิธีใช้งานใช้เวลาเพียงไม่กี่นาที ไม่ถึงชั่วโมง ฉันสามารถใช้เวลาในการหาข้อสรุปอย่างง่ายหรืออัลกอริทึมใหม่ (... หรือตอบคำถามแบบสุ่มเกี่ยวกับข้อมูล) แทนที่จะขุดคุ้ยบันทึก เขียนข้อความค้นหา SQL ซ้ำๆ และกล่าวถึงเพื่อนร่วมงานใน Slack เพื่อลองสร้างบริบทใหม่ที่คนอื่นมีอยู่แล้ว .
มีปัญหาอะไร?
ฉันรู้ว่าเพื่อนของฉันส่วนใหญ่ไม่สามารถเข้าถึงเครื่องมือดังกล่าวได้ มีบริษัทเพียงไม่กี่แห่งที่ยอมทุ่มเททรัพยากรมหาศาลเพื่อสร้างและบำรุงรักษาเครื่องมือแพลตฟอร์มอย่าง Dataportal และแม้ว่าจะมีโซลูชันแบบโอเพ่นซอร์สอยู่บ้าง แต่ก็มีแนวโน้มที่จะได้รับการออกแบบให้ปรับขนาดได้ ทำให้ยากต่อการติดตั้งและบำรุงรักษาหากไม่มีวิศวกร DevOps โดยเฉพาะ ดังนั้นฉันจึงตัดสินใจสร้างสิ่งใหม่
Whale: เครื่องมือค้นหาข้อมูลที่เรียบง่ายและโง่เขลา
และใช่ พูดง่าย ๆ อย่างโง่เขลา ฉันหมายถึงง่าย ๆ อย่างโง่เขลา ปลาวาฬมีเพียงสององค์ประกอบ:
- ไลบรารี Python ที่รวบรวมข้อมูลเมตาและจัดรูปแบบใน MarkDown
- อินเทอร์เฟซบรรทัดคำสั่ง Rust สำหรับการค้นหาข้อมูลนี้
จากมุมมองของโครงสร้างพื้นฐานภายในสำหรับการบำรุงรักษา มีเพียงไฟล์ข้อความจำนวนมากและโปรแกรมที่อัปเดตข้อความ แค่นั้นแหละ ดังนั้นการโฮสต์บนเซิร์ฟเวอร์คอมไพล์อย่าง Github จึงเป็นเรื่องเล็กน้อย ไม่มีภาษาคิวรีใหม่ให้เรียนรู้ ไม่มีโครงสร้างพื้นฐานในการจัดการ ไม่มีการสำรองข้อมูล ทุกคนรู้จัก Git ดังนั้นการซิงค์และการทำงานร่วมกันจึงฟรี มาดูฟังก์ชั่นการทำงานกันดีกว่า
GUI ที่ใช้ git ที่มีคุณสมบัติครบถ้วน
Whale ได้รับการออกแบบให้ว่ายน้ำในมหาสมุทรของเซิร์ฟเวอร์คอมไพล์ระยะไกล เขา
ตัวอย่างของ stub table ที่สร้างขึ้นโดยใช้ Github Actions การสาธิตการทำงานเต็มรูปแบบ
ค้นหา CLI ที่รวดเร็วปานสายฟ้าสำหรับพื้นที่เก็บข้อมูลของคุณ
Whale อาศัยและหายใจบนบรรทัดคำสั่ง ให้การค้นหาที่ทรงพลังในมิลลิวินาทีทั่วทั้งตารางของคุณ แม้จะมีตารางหลายล้านตาราง เราก็สามารถทำให้ Whale มีประสิทธิภาพอย่างไม่น่าเชื่อได้โดยใช้กลไกการแคชที่ชาญฉลาด และสร้างแบ็กเอนด์ขึ้นมาใหม่ใน Rust คุณจะไม่สังเกตเห็นความล่าช้าในการค้นหา [สวัสดี Google DS]
การสาธิตปลาวาฬล้านตารางการค้นหา
การคำนวณเมตริกอัตโนมัติ [ในรุ่นเบต้า]
สิ่งหนึ่งที่ฉันชอบน้อยที่สุดในฐานะนักวิทยาศาสตร์ข้อมูลคือการเรียกใช้คำค้นหาเดิมซ้ำแล้วซ้ำอีกเพื่อตรวจสอบคุณภาพของข้อมูลที่ใช้ Whale รองรับความสามารถในการกำหนดเมตริกใน SQL ธรรมดาที่จะกำหนดเวลาให้ทำงานพร้อมกับไปป์ไลน์การล้างข้อมูลเมตาของคุณ กำหนดบล็อกเมตริก YAML ภายในตาราง stub และ Whale จะทำงานโดยอัตโนมัติตามกำหนดเวลาและเรียกใช้การสืบค้นที่ซ้อนอยู่ในเมตริก
```metrics
metric-name:
sql: |
select count(*) from table
```
เมื่อรวมกับ Github แนวทางนี้หมายความว่า Whale สามารถทำหน้าที่เป็นแหล่งข้อมูลกลางที่ง่ายสำหรับคำจำกัดความของเมตริก Whale ยังบันทึกค่าพร้อมกับการประทับเวลาในไฟล์ "~/. ปลาวาฬ/เมตริก" หากคุณต้องการทำแผนภูมิหรือการวิจัยเชิงลึกเพิ่มเติม
อนาคต
หลังจากพูดคุยกับผู้ใช้ Whale เวอร์ชันก่อนเผยแพร่ เราตระหนักว่าผู้คนต้องการฟังก์ชันการทำงานที่มากขึ้น ทำไมต้องเป็นเครื่องมือค้นหาตาราง? ทำไมไม่เครื่องมือค้นหาตัวชี้วัด? ทำไมไม่ตรวจสอบ? ทำไมไม่ใช้เครื่องมือดำเนินการแบบสอบถาม SQL? ในขณะที่ Whale v1 ถูกมองว่าเป็นเครื่องมือที่ใช้ร่วมกัน CLI อย่างง่าย Dataportal/Amundsen
ซึ่งได้พัฒนาเป็นแพลตฟอร์มแบบสแตนด์อโลนที่มีคุณสมบัติครบถ้วนแล้ว และเราหวังว่ามันจะกลายเป็นส่วนสำคัญของชุดเครื่องมือของ Data Scientist
หากมีบางสิ่งที่คุณต้องการเห็นในกระบวนการพัฒนา เข้าร่วมกับเรา
ข้อสรุป
Whale ได้รับการพัฒนาและดูแลโดย Dataframe ซึ่งเป็นสตาร์ทอัพที่ฉันเพิ่งรู้สึกยินดีที่ได้ร่วมก่อตั้งกับคนอื่นๆ ในขณะที่ Whale สร้างมาเพื่อนักวิทยาศาสตร์ข้อมูล แต่ Dataframe ก็สร้างมาเพื่อนักวิทยาศาสตร์ข้อมูล สำหรับบรรดาของคุณที่ต้องการทำงานร่วมกันอย่างใกล้ชิดมากขึ้น อย่าลังเลที่จะ
และตามรหัสโปรโมชั่น ฮาเบอร์คุณจะได้รับส่วนลดเพิ่มอีก 10% ตามที่ระบุไว้บนแบนเนอร์
Bootcamp วิทยาศาสตร์ข้อมูลออนไลน์ ฝึกอบรมวิชาชีพนักวิเคราะห์ข้อมูลตั้งแต่เริ่มต้น Bootcamp การวิเคราะห์ข้อมูลออนไลน์ สอนวิชาชีพด้าน Data Science ตั้งแต่เริ่มต้น Python สำหรับหลักสูตรการพัฒนาเว็บ
หลักสูตรเพิ่มเติม
หลักสูตรการวิเคราะห์ข้อมูล หลักสูตร DevOps อาชีพนักพัฒนาเว็บ อาชีพ นักพัฒนา iOS ตั้งแต่เริ่มต้น นักพัฒนา Android มืออาชีพตั้งแต่เริ่มต้น นักพัฒนา Java มืออาชีพตั้งแต่เริ่มต้น หลักสูตรจาวาสคริปต์ หลักสูตรการเรียนรู้ของเครื่อง หลักสูตร "คณิตศาสตร์และการเรียนรู้ของเครื่องสำหรับวิทยาศาสตร์ข้อมูล" หลักสูตรขั้นสูง "Machine Learning Pro + Deep Learning"
บทความที่แนะนำ
จะเป็นนักวิทยาศาสตร์ข้อมูลได้อย่างไรโดยไม่ต้องเรียนหลักสูตรออนไลน์ 450 หลักสูตร Ivy League ฟรี วิธีเรียน Machine Learning 5 วันต่อสัปดาห์ 9 เดือนติดต่อกัน นักวิเคราะห์ข้อมูลมีรายได้เท่าใด: ภาพรวมของเงินเดือนและตำแหน่งงานว่างในรัสเซียและต่างประเทศในปี 2020 แมชชีนเลิร์นนิงและคอมพิวเตอร์วิทัศน์ในอุตสาหกรรมเหมืองแร่
ที่มา: will.com