Разбіраемся, у чым розніца паміж Data Mining і Data Extraction

Разбіраемся, у чым розніца паміж Data Mining і Data Extraction
Два гэтых модных словы, звязаных з Data Science, збіваюць з панталыку шматлікіх людзей. Data Mining часта няправільна разумеюць як выманне і атрыманне дадзеных, але насамрэч усё нашмат складаней. У гэтым пасце давайце расставім кропкі над Mining і высветлім розніцу паміж Data Mining і Data Extraction.

Што такое Data Mining?

Data mining, таксама званы Выяўленне ведаў у базе дадзеных (KDD), уяўляе сабой метад, часта выкарыстоўваецца для аналізу вялікіх масіваў дадзеных з дапамогай статыстычных і матэматычных метадаў для пошуку схаваных заканамернасцяў або тэндэнцый і здабывання з іх каштоўнасці.

Што можна зрабіць з дапамогай Data Mining?

Аўтаматызуючы працэс, інструменты data mining могуць праглядаць базы дадзеных і эфектыўна выяўляць утоеныя заканамернасці. Для прадпрыемстваў data mining часта выкарыстоўваецца для выяўлення заканамернасцяў і ўзаемасувязяў у дадзеных, якія дапамагаюць прымаць аптымальныя рашэнні ў бізнэсе.

Прыклады прымянення

Пасля таго, як у 1990-х гадах data mining атрымаў шырокае распаўсюджванне, кампаніі ў шырокім спектры галін, у тым ліку рознічны гандаль, фінансы, ахова здароўя, транспарт, тэлекамунікацыі, электронную камерцыю і г.д., пачалі выкарыстоўваць метады data mining для атрымання інфармацыі на аснове дадзеных. Data mining можа дапамагчы сегментаваць кліентаў, выявіць махлярства, прагназаваць продажы і шматлікае іншае.

  • Сегментацыя кліентаў
    Дзякуючы аналізу дадзеных аб кліентах і выяўленні рыс мэтавых кліентаў, кампаніі могуць выбудоўваць іх у асобную групу і прадастаўляць якія адказваюць іх патрэбам спецыяльныя прапановы.
  • Аналіз рынкавага кошыка
    Гэтая методыка заснавана на тэорыі, што калі вы купляеце пэўную групу тавараў, вы, хутчэй за ўсё, купіце іншую групу тавараў. Адзін вядомы прыклад: калі бацькі купляюць падгузнікі для сваіх немаўлят, яны, як правіла, купляюць піва разам з падгузнікамі.
  • Прагназаванне продажаў
    Гэта можа здацца падобным на аналіз рынкавага кошыка, але на гэты раз аналіз дадзеных выкарыстоўваецца для прагназавання таго, калі пакупнік зноў набудзе прадукт у будучыні. Напрыклад, трэнер купляе слоік пратэіна, якой павінна хопіць на 9 месяцаў. Крама, які прадае гэты пратэін, плануе выпусціць новы праз 9 месяцаў, каб трэнер зноў яго купіў.
  • Выяўленне махлярства
    Data mining дапамагае ў пабудове мадэляў для выяўлення махлярства. Збіраючы ўзоры ашуканскіх і праўдзівых справаздач, прадпрыемствы атрымліваюць права вызначаць, якія аперацыі з'яўляюцца падазронымі.
  • Выяўленне патэрнаў у вытворчасці
    У апрацоўчай прамысловасці data mining выкарыстоўваецца, каб дапамагчы ў праектаванні сістэм, шляхам выяўлення ўзаемасувязі паміж архітэктурай прадукта, профілем і патрэбамі кліентаў. Здабыча даных таксама можа прадказаць тэрміны распрацоўкі прадукцыі і затраты.

І гэта толькі некалькі сцэнарыяў выкарыстання data mining.

Этапы Data Mining

Data mining - гэта цэласны працэс збору, адбору, ачысткі, пераўтварэнні і вымання дадзеных для ацэнкі заканамернасцяў і, у канчатковым выніку, для вымання каштоўнасці.

Разбіраемся, у чым розніца паміж Data Mining і Data Extraction

Як правіла, увесь працэс здабычы дадзеных можна абагульніць да 7 этапаў:

  1. Ачыстка дадзеных
    У рэальным свеце дадзеныя не заўсёды чысцяцца і структуруюцца. Часта яны шумныя, няпоўныя і могуць змяшчаць памылкі. Каб пераканацца, што вынік data mining дакладны, спачатку неабходна ачысціць дадзеныя. Некаторыя метады ачысткі ўключаюць запаўненне адсутнічаюць значэнняў, аўтаматычны і ручны кантроль і г.д.
  2. Інтэграцыя дадзеных
    Гэта этап, на якім дадзеныя з розных крыніц здабываюцца, камбінуюцца і інтэгруюцца. Крыніцамі могуць быць базы даных, тэкставыя файлы, электронныя табліцы, дакументы, шматмерныя масівы даных, інтэрнэт і гэтак далей.
  3. Выбарка дадзеных
    Звычайна не ўсе інтэграваныя дадзеныя неабходны ў data mining. Выбарка дадзеных - гэта этап, у якім з вялікай базы дадзеных выбіраюцца і здабываюцца толькі карысныя дадзеныя.
  4. Пераўтварэнне дадзеных
    Пасля выбару дадзеных яны пераўтворацца ў прыдатныя для здабычы формы. Гэты працэс уключае ў сябе нармалізацыю, агрэгаванне, абагульненне і г.д.
  5. Інтэлектуальны аналіз дадзеных
    Тут надыходзіць найважнейшая частка data mining - выкарыстанне інтэлектуальных метадаў для пошуку заканамернасцяў у іх. Працэс уключае рэгрэсію, класіфікацыю, прагназаванне, кластарызацыю, вывучэнне асацыяцый і многае іншае.
  6. Ацэнка мадэлі
    Гэты этап накіраваны на выяўленне патэнцыйна карысных, простых у разуменні шаблонаў, а таксама шаблонаў, якія пацвярджаюць гіпотэзы.
  7. Прадстаўленне ведаў
    На заключным этапе атрыманая інфармацыя прадстаўлена ў прывабным выглядзе з ужываннем метадаў прадстаўлення ведаў і візуалізацыі.

Недахопы Data Mining

  • Вялікія ўкладанні часу і працы
    Паколькі здабыч дадзеных - гэта працяглы і складаны працэс, ён патрабуе вялікай працы прадуктыўных і кваліфікаваных людзей. Спецыялісты па інтэлектуальным аналізе даных могуць карыстацца магутнымі інструментамі здабычы даных, аднак ім патрабуюцца спецыялісты для падрыхтоўкі даных і разумення вынікаў. У выніку на апрацоўку ўсёй інфармацыі можа запатрабавацца некаторы час.
  • Прыватнасць і бяспеку дадзеных
    Паколькі data mining збірае інфармацыю аб кліентах з дапамогай рынкавых метадаў, яна можа парушыць канфідэнцыяльнасць карыстальнікаў. Акрамя таго, хакеры могуць атрымаць дадзеныя, якія захоўваюцца ў сістэмах здабычы даных. Гэта ўяўляе пагрозу для бяспекі гэтых кліентаў. Калі выкрадзеныя дадзеныя выкарыстоўваюцца не па прызначэнні, гэта можа лёгка нашкодзіць іншым.

Вышэй прыведзена кароткае ўвядзенне ў data mining. Як я ўжо згадвала, data mining утрымоўвае працэс збору і інтэграцыі дадзеных, які складаецца з працэс вымання дадзеных (data extraction). У гэтым выпадку можна з упэўненасцю сказаць, што data extraction можа быць часткай працяглага працэсу data mining.

Што такое Data Extraction?

Таксама вядомае як «выманне вэб-дадзеных» і «вэб-скрэпінг», гэты працэс уяўляе сабой акт вымання дадзеных з (звычайна неструктураваных або дрэнна структураваных) крыніц дадзеных у цэнтралізаваныя месцы і цэнтралізацыю ў адным месцы для захоўвання або далейшай апрацоўкі. У прыватнасці, да неструктураваных крыніц дадзеных ставяцца вэб-старонкі, электронная пошта, дакументы, файлы PDF, адсканаваны тэкст, справаздачы мэйнфрэймаў, шпулькавыя файлы, аб'явы і г.д. Цэнтралізаваныя сховішчы могуць быць лакальнымі, хмарнымі ці гібрыднымі. Важна памятаць, што выманне дадзеных не складаецца з апрацоўку ці іншы аналіз, які можа адбыцца пазней.

Што можна зрабіць з дапамогай Data Extraction?

У асноўным мэты вымання даных дзеляцца на 3 катэгорыі.

  • Архівацыя
    Выманне дадзеных можа пераўтварыць дадзеныя з фізічных фарматаў: кніг, газет, рахункаў-фактур у лічбавыя фарматы, напрыклад, базы дадзеных для захоўвання або рэзервовага капіявання.
  • Змяненне фармату дадзеных
    Калі вы жадаеце перанесці дадзеныя з вашага бягучага сайта на новы, які знаходзіцца ў стадыі распрацоўкі, вы можаце сабраць дадзеныя з вашага ўласнага сайта, здабываючы іх.
  • Аналіз дадзеных
    Распаўсюджаны дадатковы аналіз вынятых дадзеных для атрымання ўяўлення аб іх. Гэта можа здацца падобным на аналіз дадзеных пры data mining, але ўлічыце, што аналіз дадзеных - гэта мэта іх вымання, але не яго частка. Больш за тое, дадзеныя аналізуюцца інакш. Адзін з прыкладаў: уладальнікі інтэрнэт-крам здабываюць інфармацыю аб прадукце з сайтаў электроннай камерцыі, такіх як Amazon, для маніторынгу стратэгій канкурэнтаў у рэжыме рэальнага часу. Як і data mining, data extraction - гэта аўтаматызаваны працэс, які мае мноства пераваг. Раней людзі капіравалі і ўстаўлялі дадзеныя ўручную з аднаго месца ў іншае, што займала вельмі шмат часу. Выманне дадзеных паскарае збор і значна павялічвае дакладнасць вымаемых дадзеных.

Некаторыя прыклады прымянення Data Extraction

Падобна data mining, выманне дадзеных шырока выкарыстоўваецца ў розных галінах прамысловасці. Апроч маніторынгу коштаў у электроннай камерцыі, выманне дадзеных можа дапамагчы ва ўласным даследаванні, агрэгаванні навін, маркетынгу, у працы з нерухомасцю, вандраваннях і турызме, у кансалтынгу, фінансах і шмат у чым іншым.

  • Лідагенерацыя
    Кампаніі могуць здабываць дадзеныя з каталогаў: Yelp, Crunchbase, Yellowpages і генераваць лідаў для развіцця бізнесу. Вы можаце паглядзець відэа ніжэй, каб даведацца, як атрымаць дадзеныя з Yellowpages з дапамогай шаблону вэб-скрэпінга.

  • Агрэгацыя кантэнту і навін
    Якія агрэгуюць кантэнт вэб-сайты могуць атрымліваць рэгулярныя патокі дадзеных з некалькіх крыніц і падтрымліваць свае сайты ў актуальным стане.
  • Аналіз настрояў
    Пасля вымання аглядаў, каментароў і водгукаў з сацыяльных сетак, такіх як Instagram і Twitter, адмыслоўцы могуць прааналізаваць ляжалыя ў іх аснове погляды і атрымаць уяўленне пра тое, як успрымаецца брэнд, прадукт ці нейкая з'ява.

Крокі Data Extraction

Выманне дадзеных - першы этап ETL (абрэвіятура Extract, Transform, Load: выманне, пераўтварэнне, загрузка) і ELT (выманне, загрузка і пераўтварэнне). ETL і ELT самі па сабе з'яўляюцца часткай завершанай стратэгіі інтэграцыі даных. Іншымі словамі, выманне дадзеных можа быць часткай іх здабычы.

Разбіраемся, у чым розніца паміж Data Mining і Data Extraction
Выманне, пераўтварэнне, загрузка

У той час як data mining – гэта атрыманне інфармацыі з вялікіх масіваў дадзеных, data extraction – гэта значна карацейшы і просты працэс. Яго можна звесці да трох этапаў:

  1. Выбар крыніцы дадзеных
    Абярыце крыніцу, дадзеныя з якой вы хочаце атрымаць, напрыклад, вэб-сайт.
  2. збор дадзеных
    Дашліце «GET» запыт на сайт і прааналізуйце атрыманы дакумент HTML з дапамогай моў праграмавання, такіх як Python, PHP, R, Ruby і інш.
  3. Захоўванне дадзеных
    Захавайце дадзеныя ў сваёй лакальнай базе дадзеных або ў хмарным сховішчы для будучага выкарыстання. Калі вы дасведчаны праграміст, які хоча атрымаць дадзеныя, вышэйзгаданыя крокі могуць здацца вам простымі. Аднак, калі вы не праграмуеце, ёсць кароткі шлях - выкарыстоўваць прылады вымання дадзеных, напрыклад Васьмёрка. Прылады data extraction, гэтак жа як і прылады data mining, распрацаваны для таго, каб зэканоміць энергію і зрабіць апрацоўку дадзеных просты для ўсіх. Гэтыя прылады не толькі эканамічныя, але і зручныя для пачаткоўцаў. Яны дазваляюць карыстальнікам збіраць дадзеныя на працягу некалькіх хвілін, захоўваць іх у воблаку і экспартаваць іх у многія фарматы: Excel, CSV, HTML, JSON або ў базы дадзеных на сайце праз API.

Недахопы Data Extraction

  • збой сервера
    Пры выманні дадзеных у вялікіх маштабах вэб-сервер мэтавага сайта можа быць перагружаны, што можа прывесці да паломкі сервера. Гэта нанясе шкоду інтарэсам уладальніка сайта.
  • Бан па IP
    Калі чалавек занадта часта збірае дадзеныя, вэб-сайты могуць заблакаваць яго IP-адрас. Рэсурс можа цалкам забараніць IP-адрас ці абмежаваць доступ, зрабіўшы дадзеныя няпоўнымі. Каб здабываць дадзеныя і пазбягаць блакаванні, трэба рабіць гэта з умеранай хуткасцю і прымяняць некаторыя метады антыблакіроўкі.
  • Праблемы з законам
    Выманне дадзеных з вэба пападае ў шэрую зону, калі справа дакранаецца законнасці. Буйныя сайты, такія як Linkedin і Facebook, выразна заяўляюць у сваіх умовах выкарыстання, што любое аўтаматычнае выманне дадзеных забаронена. Паміж кампаніямі было шмат судовых пазоваў з-за дзейнасці робатаў.

Ключавыя адрозненні паміж Data Mining і Data Extraction

  1. Data mining таксама называецца выяўленнем ведаў у базах даных, атрыманнем ведаў, аналізам даных/шаблонаў, зборам інфармацыі. Data extraction выкарыстоўваецца ўзаемазаменна з выманне вэб-дадзеных, сканаваннем вэб-старонак, зборам дадзеных і гэтак далей.
  2. Даследаванні data mining у асноўным заснаваныя на структураваных дадзеных, тады як пры выманні дадзеных яны звычайна здабываюцца з неструктураваных ці дрэнна структураваных крыніц.
  3. Мэта data mining - зрабіць дадзеныя больш карыснымі для аналізу. Data extraction - гэта збор дадзеных у адно месца, дзе яны могуць быць захаваны або апрацаваны.
  4. Аналіз пры data mining заснаваны на матэматычных метадах выяўлення заканамернасцяў ці тэндэнцый. Data extraction грунтуецца на мовах праграмавання ці прыладах вымання дадзеных для абыходу крыніц.
  5. Мэта data mining - знайсці факты, якія раней не былі вядомыя ці ігнараваліся, тады як data extraction мае справу з існуючай інфармацыяй.
  6. Data mining складаней і патрабуе вялікіх укладанняў у навучанне людзей. Data extraction пры выкарыстанні прыдатнага інструмента можа быць надзвычай простым і эканамічным.

Мы дапамагаем пачаткоўцам не заблытацца ў Data. Спецыяльна для хабраўчан мы зрабілі промакод HABR, Які дае дадатковую зніжку 10% да зніжкі паказанай на банеры.

Разбіраемся, у чым розніца паміж Data Mining і Data Extraction

Яшчэ курсы

Рэкамендуемыя артыкулы

Крыніца: habr.com