เป็นไปไม่ได้ที่จะอธิบายเหตุผลว่าทำไมฉันถึงอ่านข้อความนี้ ฉันเพิ่งมีเวลาและสนใจว่าตลาดทำงานอย่างไร และนี่คือตลาดที่ครบครันตามข้อมูลของ Gartner ตั้งแต่ปี 2018 ตั้งแต่ปี 2014-2016 เรียกว่าการวิเคราะห์ขั้นสูง (รูทใน BI) ในปี 2017 - วิทยาศาสตร์ข้อมูล (ฉันไม่รู้วิธีแปลสิ่งนี้เป็นภาษารัสเซีย) สำหรับผู้ที่สนใจความเคลื่อนไหวของพ่อค้าแม่ค้ารอบๆ จัตุรัส ก็สามารถเข้าไปได้
นี่ไม่ใช่การวิเคราะห์อย่างเป็นระบบหรือตาราง มุมมองส่วนบุคคลจากมุมมองของนักธรณีฟิสิกส์ด้วย แต่ฉันอยากรู้เสมอที่จะอ่าน Gartner MQ เพราะพวกเขากำหนดบางประเด็นได้อย่างสมบูรณ์แบบ นี่คือสิ่งที่ฉันให้ความสนใจทั้งทางเทคนิค ความชาญฉลาดด้านตลาด และเชิงปรัชญา
นี่ไม่ใช่สำหรับผู้ที่เจาะลึกหัวข้อ ML แต่สำหรับผู้ที่สนใจในสิ่งที่เกิดขึ้นโดยทั่วไปในตลาด
ตลาด DSML นั้นซ้อนกันอย่างมีเหตุผลระหว่างบริการของนักพัฒนา BI และ Cloud AI
คำพูดและเงื่อนไขที่ชื่นชอบก่อน:
- “ผู้นำอาจไม่ใช่ตัวเลือกที่ดีที่สุด” — ผู้นำตลาดไม่ใช่สิ่งที่คุณต้องการเสมอไป เร่งด่วนมาก! ผลที่ตามมาของการขาดลูกค้าที่ใช้งานได้ พวกเขามักจะมองหาโซลูชันที่ "ดีที่สุด" มากกว่าโซลูชันที่ "เหมาะสม"
- “การดำเนินงานแบบจำลอง” - ย่อว่า MOPs และทุกคนต่างก็มีช่วงเวลาที่ยากลำบากกับปั๊ก! – (ธีมปั๊กสุดเท่ทำให้โมเดลใช้งานได้)
- "สภาพแวดล้อมโน้ตบุ๊ก" เป็นแนวคิดสำคัญที่โค้ด ความคิดเห็น ข้อมูล และผลลัพธ์มารวมกัน นี่เป็นความชัดเจน มีแนวโน้มดี และสามารถลดจำนวนโค้ด UI ได้อย่างมาก
- "หยั่งรากในโอเพ่นซอร์ส" - พูดได้ดี - หยั่งรากในโอเพ่นซอร์ส
- “นักวิทยาศาสตร์ข้อมูลพลเมือง” - คนง่ายๆ เช่น คนงี่เง่า ไม่ใช่ผู้เชี่ยวชาญ ที่ต้องการสภาพแวดล้อมที่มองเห็นได้และสิ่งอำนวยความสะดวกทุกประเภท พวกเขาจะไม่เขียนโค้ด
- "ประชาธิปไตย" — มักใช้เพื่อหมายถึง “ทำให้ผู้คนในวงกว้างเข้าถึงได้” เราสามารถพูดว่า “ทำให้ข้อมูลเป็นประชาธิปไตย” แทนที่จะพูดว่า “ทำให้ข้อมูลเป็นอิสระ” ที่เป็นอันตรายที่เราเคยใช้ “ประชาธิปไตย” เป็นเรื่องยาวเสมอและผู้ขายทุกรายต่างวิ่งตามไป สูญเสียความเข้มข้นของความรู้ - เข้าถึงได้มากขึ้น!
- "การวิเคราะห์ข้อมูลเชิงสำรวจ - EDA" — การพิจารณาวิธีการที่มีอยู่เหล่านี้ สถิติบางอย่าง. การสร้างภาพข้อมูลเล็กน้อย สิ่งที่ทุกคนทำในระดับหนึ่งหรืออย่างอื่น ไม่รู้ว่ามีชื่อนี้ด้วย
- "การทำซ้ำ" — รักษาพารามิเตอร์สภาพแวดล้อม อินพุตและเอาท์พุตทั้งหมดไว้สูงสุด เพื่อให้สามารถทำซ้ำการทดลองได้เมื่อดำเนินการแล้ว คำศัพท์ที่สำคัญที่สุดสำหรับสภาพแวดล้อมการทดสอบเชิงทดลอง!
ดังนั้น:
Alteryx
อินเทอร์เฟซที่ยอดเยี่ยมเหมือนกับของเล่น แน่นอนว่าความสามารถในการขยายขนาดนั้นค่อนข้างยาก ดังนั้นชุมชนพลเมืองของวิศวกรจึงมี tchotchkes ให้เล่นเหมือนกัน การวิเคราะห์เป็นของคุณทั้งหมดในขวดเดียว ทำให้ฉันนึกถึงความซับซ้อนของการวิเคราะห์ข้อมูลความสัมพันธ์ทางสเปกตรัม
งู
ชุมชนเกี่ยวกับผู้เชี่ยวชาญ Python และ R โอเพ่นซอร์สมีขนาดใหญ่ตามนั้น ปรากฎว่าเพื่อนร่วมงานของฉันใช้มันตลอดเวลา แต่ฉันไม่รู้
ดาต้าบริคส์
ประกอบด้วยสามโครงการโอเพ่นซอร์ส - นักพัฒนา Spark ได้ระดมเงินได้มากมายตั้งแต่ปี 2013 ฉันต้องอ้างอิงวิกิจริงๆ:
“ในเดือนกันยายน 2013 Databricks ประกาศว่าระดมทุนได้ 13.9 ล้านดอลลาร์จาก Andreessen Horowitz บริษัทระดมทุนเพิ่มเติมได้ 33 ล้านดอลลาร์ในปี 2014, 60 ล้านดอลลาร์ในปี 2016, 140 ล้านดอลลาร์ในปี 2017, 250 ล้านดอลลาร์ในปี 2019 (ก.พ.) และ 400 ล้านดอลลาร์ในปี 2019 (ต.ค.)”!!!
ผู้ยิ่งใหญ่บางคนตัดสปาร์ก ฉันไม่รู้ ขอโทษที!
และโครงการได้แก่:
- ทะเลสาบเดลต้า - ACID on Spark เพิ่งเปิดตัว (สิ่งที่เราฝันถึงด้วย Elasticsearch) - เปลี่ยนให้เป็นฐานข้อมูล: สคีมาที่เข้มงวด, ACID, การตรวจสอบ, เวอร์ชัน...
- เอ็มแอล โฟลว์ — การติดตาม การบรรจุ การจัดการ และการจัดเก็บแบบจำลอง
- หมีโคอาล่า - Pandas DataFrame API บน Spark - Pandas - Python API สำหรับการทำงานกับตารางและข้อมูลทั่วไป
คุณสามารถดู Spark สำหรับผู้ที่ไม่รู้หรือลืม:
กล่าวโดยสรุป Databricks ดึง Spark ออกมา ใครก็ตามที่ต้องการใช้ Spark ตามปกติบนคลาวด์จะใช้ DataBricks โดยไม่ลังเลตามที่ตั้งใจไว้ 🙂 Spark เป็นตัวสร้างความแตกต่างหลักที่นี่
ฉันได้เรียนรู้ว่า Spark Streaming ไม่ใช่เรียลไทม์หรือไมโครแบทช์ปลอมจริง และหากคุณต้องการเรียลไทม์แบบเรียลไทม์ ก็อยู่ใน Apache STORM ทุกคนยังพูดและเขียนว่า Spark ดีกว่า MapReduce นี่คือสโลแกน
ดาต้าคุ
สิ่งที่ยอดเยี่ยมตั้งแต่ต้นจนจบ มีโฆษณามากมาย ฉันไม่เข้าใจว่ามันแตกต่างจาก Alteryx อย่างไร
ดาต้าโรบอท
Paxata สำหรับการเตรียมข้อมูลเป็นบริษัทแยกต่างหากที่ Data Robots ซื้อในเดือนธันวาคม 2019 เราระดมทุนได้ 20 MUSD และขายไป ทั้งหมดใน 7 ปี
การเตรียมข้อมูลใน Paxata ไม่ใช่ Excel - ดูที่นี่:
มีการค้นหาและข้อเสนออัตโนมัติสำหรับการรวมระหว่างชุดข้อมูลสองชุด สิ่งที่ยอดเยี่ยม - เพื่อให้เข้าใจข้อมูล จะต้องเน้นข้อมูลที่เป็นข้อความมากยิ่งขึ้น (
Data Catalog เป็นแค็ตตาล็อกที่ยอดเยี่ยมของชุดข้อมูล "สด" ที่ไร้ประโยชน์
สิ่งที่น่าสนใจคือการสร้างไดเร็กทอรีใน Paxata (
“ตามข้อมูลของบริษัทวิเคราะห์
ไข่ ซอฟต์แวร์นี้เกิดขึ้นได้จากความก้าวหน้าในการวิเคราะห์เชิงทำนาย ,เรียนรู้เครื่อง และNoSQL วิธีการแคชข้อมูล[15] ซอฟต์แวร์ใช้ความหมาย อัลกอริธึมเพื่อทำความเข้าใจความหมายของคอลัมน์ในตารางข้อมูลและอัลกอริธึมการจดจำรูปแบบเพื่อค้นหาข้อมูลซ้ำที่อาจเกิดขึ้นในชุดข้อมูล[15] [7] นอกจากนี้ยังใช้การจัดทำดัชนี การจดจำรูปแบบข้อความ และเทคโนโลยีอื่นๆ ที่พบในโซเชียลมีเดียและซอฟต์แวร์ค้นหา”
สินค้าหลักของ Data Robot คือ
แน่นอนว่าเป็นที่ชัดเจนแล้วว่าทีม Data Scientist ขนาดใหญ่ต้องมีสภาพแวดล้อมในการทำงานกับแบบจำลอง ไม่เช่นนั้นพวกเขาจะผลิตแบบจำลองจำนวนมากและไม่เคยปรับใช้อะไรเลย และในความเป็นจริงต้นน้ำของน้ำมันและก๊าซของเรา หากเราสามารถสร้างแบบจำลองที่ประสบความสำเร็จได้เพียงแบบจำลองเดียว นั่นจะเป็นความก้าวหน้าอย่างมาก!
กระบวนการนี้ชวนให้นึกถึงการทำงานกับระบบการออกแบบในธรณีวิทยา-ธรณีฟิสิกส์เป็นอย่างมาก
เสื้อดอมินอ
เน้นแพลตฟอร์มแบบเปิดและการทำงานร่วมกัน ผู้ใช้ทางธุรกิจเข้ารับการรักษาฟรี Data Lab ของพวกเขาคล้ายกับ sharepoint มาก (และเป็นชื่อที่หวือหวาของ IBM อย่างมาก) การทดลองทั้งหมดเชื่อมโยงกับชุดข้อมูลดั้งเดิม สิ่งนี้คุ้นเคยแค่ไหน :) ในทางปฏิบัติของเรา - ข้อมูลบางส่วนถูกลากเข้าไปในโมเดล จากนั้นจะถูกล้างและจัดลำดับในโมเดล และทั้งหมดนี้อยู่ในโมเดลอยู่แล้วและไม่พบจุดสิ้นสุดในข้อมูลต้นฉบับ .
Domino มีโครงสร้างพื้นฐานเสมือนจริงที่ยอดเยี่ยม ฉันประกอบเครื่องได้มากเท่าที่ต้องการในไม่กี่วินาทีและไปนับ วิธีการดำเนินการไม่ชัดเจนในทันที นักเทียบท่ามีอยู่ทั่วไป อิสระมากมาย! สามารถเชื่อมต่อพื้นที่ทำงานเวอร์ชันล่าสุดได้ การเปิดตัวการทดลองแบบขนาน การติดตามและคัดเลือกสิ่งที่ประสบความสำเร็จ
เช่นเดียวกับ DataRobot - ผลลัพธ์จะถูกเผยแพร่สำหรับผู้ใช้ทางธุรกิจในรูปแบบของแอปพลิเคชัน สำหรับ “ผู้มีส่วนได้ส่วนเสีย” ที่มีพรสวรรค์เป็นพิเศษ และมีการติดตามการใช้งานจริงของแบบจำลองด้วย ทุกอย่างเพื่อปั๊ก!
ฉันไม่เข้าใจว่าโมเดลที่ซับซ้อนจะจบลงอย่างไรในการผลิต API บางชนิดมีไว้เพื่อป้อนข้อมูลและรับผลลัพธ์
H2O
Driveless AI เป็นระบบขนาดกะทัดรัดและใช้งานง่ายสำหรับ Supervised ML ทุกอย่างในกล่องเดียว ยังไม่ชัดเจนในทันทีเกี่ยวกับแบ็กเอนด์
โมเดลนี้จะถูกรวมเข้ากับเซิร์ฟเวอร์ REST หรือ Java App โดยอัตโนมัติ นี่เป็นความคิดที่ดี มีการทำไปมากมายเพื่อการตีความและการอธิบาย การตีความและคำอธิบายผลลัพธ์ของแบบจำลอง (อะไรโดยเนื้อแท้ไม่ควรอธิบาย มิฉะนั้นบุคคลสามารถคำนวณได้เหมือนกัน)
เป็นครั้งแรกที่มีกรณีศึกษาเกี่ยวกับข้อมูลที่ไม่มีโครงสร้างและ
มีเฟรมเวิร์ก H2O โอเพ่นซอร์สขนาดใหญ่ที่ไม่ชัดเจนทั้งหมด (ชุดอัลกอริธึม/ไลบรารี?) Visual Laptop ของคุณเองโดยไม่ต้องเขียนโปรแกรมเช่น Jupiter (
ในที่เดียวกัน: ประสิทธิภาพสูง การเพิ่มประสิทธิภาพ และมาตรฐานอุตสาหกรรมในด้านการรวมเข้ากับฮาร์ดแวร์และระบบคลาวด์
และจุดอ่อนนั้นเป็นไปตามตรรกะ - Driverles AI นั้นอ่อนแอและแคบเมื่อเทียบกับโอเพ่นซอร์ส การเตรียมข้อมูลทำได้ไม่ดีนักเมื่อเทียบกับ Paxata! และพวกเขาเพิกเฉยต่อข้อมูลทางอุตสาหกรรม เช่น สตรีม กราฟ และภูมิศาสตร์ ทุกสิ่งทุกอย่างไม่สามารถดีได้
ไคม์
ฉันชอบกรณีธุรกิจที่เฉพาะเจาะจงและน่าสนใจมาก 6 กรณีในหน้าหลัก โอเพ่นซอร์สที่แข็งแกร่ง
Gartner ลดระดับพวกเขาจากผู้นำไปสู่ผู้มีวิสัยทัศน์ การทำเงินได้ไม่ดีถือเป็นสัญญาณที่ดีสำหรับผู้ใช้ เนื่องจากผู้นำไม่ใช่ตัวเลือกที่ดีที่สุดเสมอไป
คำสำคัญเช่นเดียวกับใน H2O คือคำเสริม ซึ่งหมายถึงการช่วยเหลือนักวิทยาศาสตร์ด้านข้อมูลพลเมืองที่ยากจน นี่เป็นครั้งแรกที่มีคนถูกวิพากษ์วิจารณ์ถึงประสิทธิภาพในการรีวิว! น่าสนใจ? นั่นคือมีพลังการประมวลผลมากจนประสิทธิภาพไม่สามารถเป็นปัญหาเชิงระบบได้เลยใช่ไหม Gartner มีเกี่ยวกับคำว่า "Augmented" นี้
และดูเหมือนว่า KNIME จะไม่ใช่คนอเมริกันคนแรกในการรีวิวนี้! (และนักออกแบบของเราก็ชอบแลนดิ้งเพจของพวกเขามาก คนแปลกหน้า
MathWorks
MatLab เป็นเพื่อนเก่ากิตติมศักดิ์ที่ทุกคนรู้จัก! กล่องเครื่องมือสำหรับทุกด้านของชีวิตและสถานการณ์ บางสิ่งบางอย่างที่แตกต่างกันมาก อันที่จริงคณิตศาสตร์มากมายสำหรับทุกสิ่งในชีวิต!
ผลิตภัณฑ์เสริม Simulink สำหรับการออกแบบระบบ ฉันขุดเข้าไปในกล่องเครื่องมือสำหรับ Digital Twins - ฉันไม่เข้าใจอะไรเกี่ยวกับมันเลย
ราปิดไมเนอร์
ฉันเคยพบและได้ยินมามากก่อนหน้านี้ (พร้อมกับ Matlab) ในบริบทของโอเพ่นซอร์สที่ดี ฉันขุด TurboPrep เล็กน้อยตามปกติ ฉันสนใจที่จะรับข้อมูลที่สะอาดจากข้อมูลที่สกปรก
คุณจะเห็นอีกครั้งว่าผู้คนนั้นดีโดยพิจารณาจากสื่อการตลาดในปี 2018 และผู้คนที่พูดภาษาอังกฤษได้แย่มากในการสาธิตฟีเจอร์
และผู้คนจากดอร์ทมุนด์ตั้งแต่ปี 2001 โดยมีภูมิหลังชาวเยอรมันที่แข็งแกร่ง)
ฉันยังไม่เข้าใจจากไซต์ว่ามีอะไรบ้างในโอเพ่นซอร์ส - คุณต้องเจาะลึกลงไป วิดีโอดีๆ เกี่ยวกับการปรับใช้และแนวคิด AutoML
ไม่มีอะไรพิเศษเกี่ยวกับแบ็กเอนด์ RapidMiner Server เช่นกัน มันอาจจะกะทัดรัดและทำงานได้ดีกับสินค้าพรีเมียมตั้งแต่แกะกล่อง มันถูกบรรจุใน Docker สภาพแวดล้อมที่ใช้ร่วมกันบนเซิร์ฟเวอร์ RapidMiner เท่านั้น จากนั้นก็มี Radoop ข้อมูลจาก Hadoop นับคำคล้องจองจาก Spark ในเวิร์กโฟลว์ Studio
ตามที่คาดไว้ พ่อค้าหนุ่มสุดฮอต “ผู้ขายแท่งลาย” ย้ายพวกเขาลง อย่างไรก็ตาม Gartner คาดการณ์ถึงความสำเร็จในอนาคตในพื้นที่ Enterprise คุณสามารถหาเงินที่นั่นได้ ชาวเยอรมันรู้วิธีการทำเช่นนี้ศักดิ์สิทธิ์ :) อย่าพูดถึง SAP!!!
พวกเขาทำเพื่อประชาชนมากมาย! แต่จากหน้านี้ คุณจะเห็นว่า Gartner กล่าวว่าพวกเขากำลังดิ้นรนกับนวัตกรรมการขาย และไม่ได้ต่อสู้เพื่อความครอบคลุม แต่เพื่อผลกำไร
ยังคงอยู่ SAS и ทิบโก้ ผู้จำหน่าย BI ทั่วไปสำหรับฉัน... และทั้งคู่ก็อยู่ในอันดับต้นๆ ซึ่งยืนยันความมั่นใจของฉันว่า DataScience ปกติกำลังเติบโตอย่างมีเหตุผล
จาก BI และไม่ใช่จากคลาวด์และโครงสร้างพื้นฐาน Hadoop จากธุรกิจ นั่นคือ ไม่ใช่จากไอที เช่นเดียวกับใน Gazpromneft เช่น:
SAS
ไม่มีอะไรจะพูดมากนัก เฉพาะสิ่งที่ชัดเจนเท่านั้น
ทิบโก้
กลยุทธ์นี้อ่านอยู่ในรายการซื้อของบนหน้า Wiki ที่มีความยาวหน้าเดียว ใช่เรื่องยาวแต่28!!! ชาร์ลส์. ฉันซื้อ BI Spotfire (2007) กลับมาในช่วงวัยรุ่นที่เป็นเทคโน และยังรายงานจาก Jaspersoft (2014) จากนั้นผู้จำหน่ายการวิเคราะห์เชิงคาดการณ์มากถึงสามราย Insightful (S-plus) (2008), Statistica (2017) และ Alpine Data (2017), การประมวลผลเหตุการณ์และการสตรีม Streambase System (2013), MDM Orchestra เครือข่าย (2018) และ Snappy Data (2019) แพลตฟอร์มในหน่วยความจำ
สวัสดีแฟรงกี้!
ที่มา: will.com