รีวิว Gartner MQ 2020: การเรียนรู้ของเครื่องและแพลตฟอร์มปัญญาประดิษฐ์

เป็นไปไม่ได้ที่จะอธิบายเหตุผลว่าทำไมฉันถึงอ่านข้อความนี้ ฉันเพิ่งมีเวลาและสนใจว่าตลาดทำงานอย่างไร และนี่คือตลาดที่ครบครันตามข้อมูลของ Gartner ตั้งแต่ปี 2018 ตั้งแต่ปี 2014-2016 เรียกว่าการวิเคราะห์ขั้นสูง (รูทใน BI) ในปี 2017 - วิทยาศาสตร์ข้อมูล (ฉันไม่รู้วิธีแปลสิ่งนี้เป็นภาษารัสเซีย) สำหรับผู้ที่สนใจความเคลื่อนไหวของพ่อค้าแม่ค้ารอบๆ จัตุรัส ก็สามารถเข้าไปได้ ที่นี่ ดู. และฉันจะพูดถึงจัตุรัสปี 2020 โดยเฉพาะอย่างยิ่งเนื่องจากการเปลี่ยนแปลงที่นั่นตั้งแต่ปี 2019 มีน้อยมาก: SAP ย้ายออกและ Altair ซื้อ Datawatch

นี่ไม่ใช่การวิเคราะห์อย่างเป็นระบบหรือตาราง มุมมองส่วนบุคคลจากมุมมองของนักธรณีฟิสิกส์ด้วย แต่ฉันอยากรู้เสมอที่จะอ่าน Gartner MQ เพราะพวกเขากำหนดบางประเด็นได้อย่างสมบูรณ์แบบ นี่คือสิ่งที่ฉันให้ความสนใจทั้งทางเทคนิค ความชาญฉลาดด้านตลาด และเชิงปรัชญา

นี่ไม่ใช่สำหรับผู้ที่เจาะลึกหัวข้อ ML แต่สำหรับผู้ที่สนใจในสิ่งที่เกิดขึ้นโดยทั่วไปในตลาด

ตลาด DSML นั้นซ้อนกันอย่างมีเหตุผลระหว่างบริการของนักพัฒนา BI และ Cloud AI

รีวิว Gartner MQ 2020: การเรียนรู้ของเครื่องและแพลตฟอร์มปัญญาประดิษฐ์

คำพูดและเงื่อนไขที่ชื่นชอบก่อน:

  • “ผู้นำอาจไม่ใช่ตัวเลือกที่ดีที่สุด” — ผู้นำตลาดไม่ใช่สิ่งที่คุณต้องการเสมอไป เร่งด่วนมาก! ผลที่ตามมาของการขาดลูกค้าที่ใช้งานได้ พวกเขามักจะมองหาโซลูชันที่ "ดีที่สุด" มากกว่าโซลูชันที่ "เหมาะสม"
  • “การดำเนินงานแบบจำลอง” - ย่อว่า MOPs และทุกคนต่างก็มีช่วงเวลาที่ยากลำบากกับปั๊ก! – (ธีมปั๊กสุดเท่ทำให้โมเดลใช้งานได้)
  • "สภาพแวดล้อมโน้ตบุ๊ก" เป็นแนวคิดสำคัญที่โค้ด ความคิดเห็น ข้อมูล และผลลัพธ์มารวมกัน นี่เป็นความชัดเจน มีแนวโน้มดี และสามารถลดจำนวนโค้ด UI ได้อย่างมาก
  • "หยั่งรากในโอเพ่นซอร์ส" - พูดได้ดี - หยั่งรากในโอเพ่นซอร์ส
  • “นักวิทยาศาสตร์ข้อมูลพลเมือง” - คนง่ายๆ เช่น คนงี่เง่า ไม่ใช่ผู้เชี่ยวชาญ ที่ต้องการสภาพแวดล้อมที่มองเห็นได้และสิ่งอำนวยความสะดวกทุกประเภท พวกเขาจะไม่เขียนโค้ด
  • "ประชาธิปไตย" — มักใช้เพื่อหมายถึง “ทำให้ผู้คนในวงกว้างเข้าถึงได้” เราสามารถพูดว่า “ทำให้ข้อมูลเป็นประชาธิปไตย” แทนที่จะพูดว่า “ทำให้ข้อมูลเป็นอิสระ” ที่เป็นอันตรายที่เราเคยใช้ “ประชาธิปไตย” เป็นเรื่องยาวเสมอและผู้ขายทุกรายต่างวิ่งตามไป สูญเสียความเข้มข้นของความรู้ - เข้าถึงได้มากขึ้น!
  • "การวิเคราะห์ข้อมูลเชิงสำรวจ - EDA" — การพิจารณาวิธีการที่มีอยู่เหล่านี้ สถิติบางอย่าง. การสร้างภาพข้อมูลเล็กน้อย สิ่งที่ทุกคนทำในระดับหนึ่งหรืออย่างอื่น ไม่รู้ว่ามีชื่อนี้ด้วย
  • "การทำซ้ำ" — รักษาพารามิเตอร์สภาพแวดล้อม อินพุตและเอาท์พุตทั้งหมดไว้สูงสุด เพื่อให้สามารถทำซ้ำการทดลองได้เมื่อดำเนินการแล้ว คำศัพท์ที่สำคัญที่สุดสำหรับสภาพแวดล้อมการทดสอบเชิงทดลอง!

ดังนั้น:

Alteryx

อินเทอร์เฟซที่ยอดเยี่ยมเหมือนกับของเล่น แน่นอนว่าความสามารถในการขยายขนาดนั้นค่อนข้างยาก ดังนั้นชุมชนพลเมืองของวิศวกรจึงมี tchotchkes ให้เล่นเหมือนกัน การวิเคราะห์เป็นของคุณทั้งหมดในขวดเดียว ทำให้ฉันนึกถึงความซับซ้อนของการวิเคราะห์ข้อมูลความสัมพันธ์ทางสเปกตรัม คอสแคดซึ่งได้รับการตั้งโปรแกรมไว้ในยุค 90

งู

ชุมชนเกี่ยวกับผู้เชี่ยวชาญ Python และ R โอเพ่นซอร์สมีขนาดใหญ่ตามนั้น ปรากฎว่าเพื่อนร่วมงานของฉันใช้มันตลอดเวลา แต่ฉันไม่รู้

ดาต้าบริคส์

ประกอบด้วยสามโครงการโอเพ่นซอร์ส - นักพัฒนา Spark ได้ระดมเงินได้มากมายตั้งแต่ปี 2013 ฉันต้องอ้างอิงวิกิจริงๆ:

“ในเดือนกันยายน 2013 Databricks ประกาศว่าระดมทุนได้ 13.9 ล้านดอลลาร์จาก Andreessen Horowitz บริษัทระดมทุนเพิ่มเติมได้ 33 ล้านดอลลาร์ในปี 2014, 60 ล้านดอลลาร์ในปี 2016, 140 ล้านดอลลาร์ในปี 2017, 250 ล้านดอลลาร์ในปี 2019 (ก.พ.) และ 400 ล้านดอลลาร์ในปี 2019 (ต.ค.)”!!!

ผู้ยิ่งใหญ่บางคนตัดสปาร์ก ฉันไม่รู้ ขอโทษที!

และโครงการได้แก่:

  • ทะเลสาบเดลต้า - ACID on Spark เพิ่งเปิดตัว (สิ่งที่เราฝันถึงด้วย Elasticsearch) - เปลี่ยนให้เป็นฐานข้อมูล: สคีมาที่เข้มงวด, ACID, การตรวจสอบ, เวอร์ชัน...
  • เอ็มแอล โฟลว์ — การติดตาม การบรรจุ การจัดการ และการจัดเก็บแบบจำลอง
  • หมีโคอาล่า - Pandas DataFrame API บน Spark - Pandas - Python API สำหรับการทำงานกับตารางและข้อมูลทั่วไป

คุณสามารถดู Spark สำหรับผู้ที่ไม่รู้หรือลืม: ลิงค์. ฉันดูวิดีโอพร้อมตัวอย่างจากนกหัวขวานที่น่าเบื่อเล็กน้อยแต่ให้คำปรึกษาอย่างละเอียด: DataBricks for Data Science (ลิงค์) และสำหรับวิศวกรรมข้อมูล (ลิงค์).

กล่าวโดยสรุป Databricks ดึง Spark ออกมา ใครก็ตามที่ต้องการใช้ Spark ตามปกติบนคลาวด์จะใช้ DataBricks โดยไม่ลังเลตามที่ตั้งใจไว้ 🙂 Spark เป็นตัวสร้างความแตกต่างหลักที่นี่
ฉันได้เรียนรู้ว่า Spark Streaming ไม่ใช่เรียลไทม์หรือไมโครแบทช์ปลอมจริง และหากคุณต้องการเรียลไทม์แบบเรียลไทม์ ก็อยู่ใน Apache STORM ทุกคนยังพูดและเขียนว่า Spark ดีกว่า MapReduce นี่คือสโลแกน

ดาต้าคุ

สิ่งที่ยอดเยี่ยมตั้งแต่ต้นจนจบ มีโฆษณามากมาย ฉันไม่เข้าใจว่ามันแตกต่างจาก Alteryx อย่างไร

ดาต้าโรบอท

Paxata สำหรับการเตรียมข้อมูลเป็นบริษัทแยกต่างหากที่ Data Robots ซื้อในเดือนธันวาคม 2019 เราระดมทุนได้ 20 MUSD และขายไป ทั้งหมดใน 7 ปี

การเตรียมข้อมูลใน Paxata ไม่ใช่ Excel - ดูที่นี่: ลิงค์.
มีการค้นหาและข้อเสนออัตโนมัติสำหรับการรวมระหว่างชุดข้อมูลสองชุด สิ่งที่ยอดเยี่ยม - เพื่อให้เข้าใจข้อมูล จะต้องเน้นข้อมูลที่เป็นข้อความมากยิ่งขึ้น (ลิงค์).
Data Catalog เป็นแค็ตตาล็อกที่ยอดเยี่ยมของชุดข้อมูล "สด" ที่ไร้ประโยชน์
สิ่งที่น่าสนใจคือการสร้างไดเร็กทอรีใน Paxata (ลิงค์).

“ตามข้อมูลของบริษัทวิเคราะห์ ไข่ซอฟต์แวร์นี้เกิดขึ้นได้จากความก้าวหน้าใน การวิเคราะห์เชิงทำนาย, เรียนรู้เครื่อง และ NoSQL วิธีการแคชข้อมูล[15] ซอฟต์แวร์ใช้ ความหมาย อัลกอริธึมเพื่อทำความเข้าใจความหมายของคอลัมน์ในตารางข้อมูลและอัลกอริธึมการจดจำรูปแบบเพื่อค้นหาข้อมูลซ้ำที่อาจเกิดขึ้นในชุดข้อมูล[15][7] นอกจากนี้ยังใช้การจัดทำดัชนี การจดจำรูปแบบข้อความ และเทคโนโลยีอื่นๆ ที่พบในโซเชียลมีเดียและซอฟต์แวร์ค้นหา”

สินค้าหลักของ Data Robot คือ ที่นี่. สโลแกนของพวกเขามาจาก Model to Enterprise Application! ฉันพบการให้คำปรึกษาสำหรับอุตสาหกรรมน้ำมันที่เกี่ยวข้องกับวิกฤต แต่มันก็ซ้ำซากและไม่น่าสนใจ: ลิงค์. ฉันดูวิดีโอของพวกเขาบน Mops หรือ MLops (ลิงค์). นี่คือแฟรงเกนสไตน์ที่รวบรวมจากการซื้อผลิตภัณฑ์ต่างๆ 6-7 ครั้ง

แน่นอนว่าเป็นที่ชัดเจนแล้วว่าทีม Data Scientist ขนาดใหญ่ต้องมีสภาพแวดล้อมในการทำงานกับแบบจำลอง ไม่เช่นนั้นพวกเขาจะผลิตแบบจำลองจำนวนมากและไม่เคยปรับใช้อะไรเลย และในความเป็นจริงต้นน้ำของน้ำมันและก๊าซของเรา หากเราสามารถสร้างแบบจำลองที่ประสบความสำเร็จได้เพียงแบบจำลองเดียว นั่นจะเป็นความก้าวหน้าอย่างมาก!

กระบวนการนี้ชวนให้นึกถึงการทำงานกับระบบการออกแบบในธรณีวิทยา-ธรณีฟิสิกส์เป็นอย่างมาก นกนางแอ่น. ทุกคนที่ไม่ขี้เกียจเกินไปก็สร้างและดัดแปลงโมเดล รวบรวมข้อมูลลงในแบบจำลอง จากนั้นพวกเขาก็สร้างโมเดลอ้างอิงและส่งไปผลิต! ระหว่างแบบจำลองทางธรณีวิทยากับแบบจำลอง ML คุณจะพบสิ่งที่เหมือนกันหลายอย่าง

เสื้อดอมินอ

เน้นแพลตฟอร์มแบบเปิดและการทำงานร่วมกัน ผู้ใช้ทางธุรกิจเข้ารับการรักษาฟรี Data Lab ของพวกเขาคล้ายกับ sharepoint มาก (และเป็นชื่อที่หวือหวาของ IBM อย่างมาก) การทดลองทั้งหมดเชื่อมโยงกับชุดข้อมูลดั้งเดิม สิ่งนี้คุ้นเคยแค่ไหน :) ในทางปฏิบัติของเรา - ข้อมูลบางส่วนถูกลากเข้าไปในโมเดล จากนั้นจะถูกล้างและจัดลำดับในโมเดล และทั้งหมดนี้อยู่ในโมเดลอยู่แล้วและไม่พบจุดสิ้นสุดในข้อมูลต้นฉบับ .

Domino มีโครงสร้างพื้นฐานเสมือนจริงที่ยอดเยี่ยม ฉันประกอบเครื่องได้มากเท่าที่ต้องการในไม่กี่วินาทีและไปนับ วิธีการดำเนินการไม่ชัดเจนในทันที นักเทียบท่ามีอยู่ทั่วไป อิสระมากมาย! สามารถเชื่อมต่อพื้นที่ทำงานเวอร์ชันล่าสุดได้ การเปิดตัวการทดลองแบบขนาน การติดตามและคัดเลือกสิ่งที่ประสบความสำเร็จ

เช่นเดียวกับ DataRobot - ผลลัพธ์จะถูกเผยแพร่สำหรับผู้ใช้ทางธุรกิจในรูปแบบของแอปพลิเคชัน สำหรับ “ผู้มีส่วนได้ส่วนเสีย” ที่มีพรสวรรค์เป็นพิเศษ และมีการติดตามการใช้งานจริงของแบบจำลองด้วย ทุกอย่างเพื่อปั๊ก!

ฉันไม่เข้าใจว่าโมเดลที่ซับซ้อนจะจบลงอย่างไรในการผลิต API บางชนิดมีไว้เพื่อป้อนข้อมูลและรับผลลัพธ์

H2O

Driveless AI เป็นระบบขนาดกะทัดรัดและใช้งานง่ายสำหรับ Supervised ML ทุกอย่างในกล่องเดียว ยังไม่ชัดเจนในทันทีเกี่ยวกับแบ็กเอนด์

โมเดลนี้จะถูกรวมเข้ากับเซิร์ฟเวอร์ REST หรือ Java App โดยอัตโนมัติ นี่เป็นความคิดที่ดี มีการทำไปมากมายเพื่อการตีความและการอธิบาย การตีความและคำอธิบายผลลัพธ์ของแบบจำลอง (อะไรโดยเนื้อแท้ไม่ควรอธิบาย มิฉะนั้นบุคคลสามารถคำนวณได้เหมือนกัน)
เป็นครั้งแรกที่มีกรณีศึกษาเกี่ยวกับข้อมูลที่ไม่มีโครงสร้างและ NLP. ภาพสถาปัตยกรรมคุณภาพสูง และโดยทั่วไปแล้วฉันชอบรูปภาพเหล่านี้

มีเฟรมเวิร์ก H2O โอเพ่นซอร์สขนาดใหญ่ที่ไม่ชัดเจนทั้งหมด (ชุดอัลกอริธึม/ไลบรารี?) Visual Laptop ของคุณเองโดยไม่ต้องเขียนโปรแกรมเช่น Jupiter (ลิงค์). ฉันยังอ่านเกี่ยวกับรุ่น Pojo และ Mojo - H2O ที่ห่อด้วย Java ประการแรกตรงไปตรงมา ประการที่สองด้วยการเพิ่มประสิทธิภาพ H20 เป็นเพียงกลุ่มเดียว(!) ที่ Gartner ระบุว่าการวิเคราะห์ข้อความและ NLP เป็นจุดแข็ง รวมถึงความพยายามในการอธิบาย มันสำคัญมาก!

ในที่เดียวกัน: ประสิทธิภาพสูง การเพิ่มประสิทธิภาพ และมาตรฐานอุตสาหกรรมในด้านการรวมเข้ากับฮาร์ดแวร์และระบบคลาวด์

และจุดอ่อนนั้นเป็นไปตามตรรกะ - Driverles AI นั้นอ่อนแอและแคบเมื่อเทียบกับโอเพ่นซอร์ส การเตรียมข้อมูลทำได้ไม่ดีนักเมื่อเทียบกับ Paxata! และพวกเขาเพิกเฉยต่อข้อมูลทางอุตสาหกรรม เช่น สตรีม กราฟ และภูมิศาสตร์ ทุกสิ่งทุกอย่างไม่สามารถดีได้

ไคม์

ฉันชอบกรณีธุรกิจที่เฉพาะเจาะจงและน่าสนใจมาก 6 กรณีในหน้าหลัก โอเพ่นซอร์สที่แข็งแกร่ง

Gartner ลดระดับพวกเขาจากผู้นำไปสู่ผู้มีวิสัยทัศน์ การทำเงินได้ไม่ดีถือเป็นสัญญาณที่ดีสำหรับผู้ใช้ เนื่องจากผู้นำไม่ใช่ตัวเลือกที่ดีที่สุดเสมอไป

คำสำคัญเช่นเดียวกับใน H2O คือคำเสริม ซึ่งหมายถึงการช่วยเหลือนักวิทยาศาสตร์ด้านข้อมูลพลเมืองที่ยากจน นี่เป็นครั้งแรกที่มีคนถูกวิพากษ์วิจารณ์ถึงประสิทธิภาพในการรีวิว! น่าสนใจ? นั่นคือมีพลังการประมวลผลมากจนประสิทธิภาพไม่สามารถเป็นปัญหาเชิงระบบได้เลยใช่ไหม Gartner มีเกี่ยวกับคำว่า "Augmented" นี้ บทความแยกต่างหากซึ่งไม่สามารถเข้าถึงได้
และดูเหมือนว่า KNIME จะไม่ใช่คนอเมริกันคนแรกในการรีวิวนี้! (และนักออกแบบของเราก็ชอบแลนดิ้งเพจของพวกเขามาก คนแปลกหน้า

MathWorks

MatLab เป็นเพื่อนเก่ากิตติมศักดิ์ที่ทุกคนรู้จัก! กล่องเครื่องมือสำหรับทุกด้านของชีวิตและสถานการณ์ บางสิ่งบางอย่างที่แตกต่างกันมาก อันที่จริงคณิตศาสตร์มากมายสำหรับทุกสิ่งในชีวิต!

ผลิตภัณฑ์เสริม Simulink สำหรับการออกแบบระบบ ฉันขุดเข้าไปในกล่องเครื่องมือสำหรับ Digital Twins - ฉันไม่เข้าใจอะไรเกี่ยวกับมันเลย ที่นี่ มีการเขียนมากมาย สำหรับ อุตสาหกรรมน้ำมัน. โดยทั่วไป นี่เป็นผลิตภัณฑ์ที่แตกต่างโดยพื้นฐานจากความรู้เชิงลึกของคณิตศาสตร์และวิศวกรรมศาสตร์ เพื่อเลือกชุดเครื่องมือทางคณิตศาสตร์เฉพาะ ตามข้อมูลของ Gartner ปัญหาของพวกเขาเหมือนกับปัญหาของวิศวกรที่ชาญฉลาด ไม่มีการทำงานร่วมกัน ทุกคนควานหาในรูปแบบของตัวเอง ไม่มีประชาธิปไตย และไม่สามารถอธิบายได้

ราปิดไมเนอร์

ฉันเคยพบและได้ยินมามากก่อนหน้านี้ (พร้อมกับ Matlab) ในบริบทของโอเพ่นซอร์สที่ดี ฉันขุด TurboPrep เล็กน้อยตามปกติ ฉันสนใจที่จะรับข้อมูลที่สะอาดจากข้อมูลที่สกปรก

คุณจะเห็นอีกครั้งว่าผู้คนนั้นดีโดยพิจารณาจากสื่อการตลาดในปี 2018 และผู้คนที่พูดภาษาอังกฤษได้แย่มากในการสาธิตฟีเจอร์

และผู้คนจากดอร์ทมุนด์ตั้งแต่ปี 2001 โดยมีภูมิหลังชาวเยอรมันที่แข็งแกร่ง)

รีวิว Gartner MQ 2020: การเรียนรู้ของเครื่องและแพลตฟอร์มปัญญาประดิษฐ์
ฉันยังไม่เข้าใจจากไซต์ว่ามีอะไรบ้างในโอเพ่นซอร์ส - คุณต้องเจาะลึกลงไป วิดีโอดีๆ เกี่ยวกับการปรับใช้และแนวคิด AutoML

ไม่มีอะไรพิเศษเกี่ยวกับแบ็กเอนด์ RapidMiner Server เช่นกัน มันอาจจะกะทัดรัดและทำงานได้ดีกับสินค้าพรีเมียมตั้งแต่แกะกล่อง มันถูกบรรจุใน Docker สภาพแวดล้อมที่ใช้ร่วมกันบนเซิร์ฟเวอร์ RapidMiner เท่านั้น จากนั้นก็มี Radoop ข้อมูลจาก Hadoop นับคำคล้องจองจาก Spark ในเวิร์กโฟลว์ Studio

ตามที่คาดไว้ พ่อค้าหนุ่มสุดฮอต “ผู้ขายแท่งลาย” ย้ายพวกเขาลง อย่างไรก็ตาม Gartner คาดการณ์ถึงความสำเร็จในอนาคตในพื้นที่ Enterprise คุณสามารถหาเงินที่นั่นได้ ชาวเยอรมันรู้วิธีการทำเช่นนี้ศักดิ์สิทธิ์ :) อย่าพูดถึง SAP!!!

พวกเขาทำเพื่อประชาชนมากมาย! แต่จากหน้านี้ คุณจะเห็นว่า Gartner กล่าวว่าพวกเขากำลังดิ้นรนกับนวัตกรรมการขาย และไม่ได้ต่อสู้เพื่อความครอบคลุม แต่เพื่อผลกำไร

ยังคงอยู่ SAS и ทิบโก้ ผู้จำหน่าย BI ทั่วไปสำหรับฉัน... และทั้งคู่ก็อยู่ในอันดับต้นๆ ซึ่งยืนยันความมั่นใจของฉันว่า DataScience ปกติกำลังเติบโตอย่างมีเหตุผล
จาก BI และไม่ใช่จากคลาวด์และโครงสร้างพื้นฐาน Hadoop จากธุรกิจ นั่นคือ ไม่ใช่จากไอที เช่นเดียวกับใน Gazpromneft เช่น: ลิงค์,สภาพแวดล้อม DSML ที่เติบโตเต็มที่นั้นเติบโตมาจากแนวปฏิบัติ BI ที่แข็งแกร่ง แต่บางทีมันอาจจะดูไม่ดีและมีอคติต่อ MDM และเรื่องอื่น ๆ ก็ได้ใครจะรู้

SAS

ไม่มีอะไรจะพูดมากนัก เฉพาะสิ่งที่ชัดเจนเท่านั้น

ทิบโก้

กลยุทธ์นี้อ่านอยู่ในรายการซื้อของบนหน้า Wiki ที่มีความยาวหน้าเดียว ใช่เรื่องยาวแต่28!!! ชาร์ลส์. ฉันซื้อ BI Spotfire (2007) กลับมาในช่วงวัยรุ่นที่เป็นเทคโน และยังรายงานจาก Jaspersoft (2014) จากนั้นผู้จำหน่ายการวิเคราะห์เชิงคาดการณ์มากถึงสามราย Insightful (S-plus) (2008), Statistica (2017) และ Alpine Data (2017), การประมวลผลเหตุการณ์และการสตรีม Streambase System (2013), MDM Orchestra เครือข่าย (2018) และ Snappy Data (2019) แพลตฟอร์มในหน่วยความจำ

สวัสดีแฟรงกี้!

รีวิว Gartner MQ 2020: การเรียนรู้ของเครื่องและแพลตฟอร์มปัญญาประดิษฐ์

ที่มา: will.com

เพิ่มความคิดเห็น