Pochopení rozdílu mezi dolováním dat a extrakcí dat

Pochopení rozdílu mezi dolováním dat a extrakcí dat
Tyto dvě módní slova Data Science spoustu lidí matou. Data Mining je často mylně chápán jako vytěžování a získávání dat, ale realita je mnohem složitější. V tomto příspěvku pojďme tečkovat těžbu a zjistit rozdíl mezi dolováním dat a extrakcí dat.

Co je dolování dat?

Data mining, také tzv Zjišťování znalostí databáze (KDD), je technika často používaná k analýze velkých souborů dat pomocí statistických a matematických metod k nalezení skrytých vzorců nebo trendů a extrahování hodnoty z nich.

Co lze dělat s dolováním dat?

Díky automatizaci procesu, nástroje pro dolování dat dokáže procházet databáze a efektivně odhalovat skryté vzory. Pro podniky se dolování dat často používá k objevování vzorců a vztahů v datech, které pomáhají přijímat lepší obchodní rozhodnutí.

Příklady aplikací

Poté, co se v 1990. letech rozšířilo dolování dat, začaly společnosti v celé řadě průmyslových odvětví, včetně maloobchodu, financí, zdravotnictví, dopravy, telekomunikací, e-commerce atd. používat metody dolování dat k získávání informací na základě dat. Data mining může pomoci segmentovat zákazníky, identifikovat podvody, předvídat prodeje a další.

  • Segmentace zákazníků
    Analýzou zákaznických dat a identifikací vlastností cílových zákazníků je mohou společnosti seskupit do samostatné skupiny a poskytovat jim speciální nabídky, které splňují jejich potřeby.
  • Analýza tržního koše
    Tato technika je založena na teorii, že pokud si koupíte určitou skupinu produktů, je pravděpodobnější, že koupíte jinou skupinu produktů. Jeden slavný příklad: když otcové kupují pro své děti plenky, mají tendenci kupovat spolu s plenkami i pivo.
  • Prognóza prodeje
    Může se to zdát podobné analýze tržního koše, ale tentokrát se analýza dat používá k předpovědi, kdy si zákazník v budoucnu znovu koupí produkt. Například trenér si koupí plechovku proteinu, která by měla vydržet 9 měsíců. Obchod, který tento protein prodává, plánuje vydat nový za 9 měsíců, aby si ho trenér koupil znovu.
  • Odhalování podvodů
    Data mining pomáhá při vytváření modelů pro detekci podvodů. Shromažďováním vzorků podvodných a pravdivých zpráv mohou podniky určit, které transakce jsou podezřelé.
  • Detekce vzoru ve výrobě
    Ve zpracovatelském průmyslu se data mining používá k tomu, aby pomohl navrhovat systémy tím, že identifikuje vztah mezi architekturou produktu, profilem a potřebami zákazníků. Data mining může také předpovídat dobu vývoje produktu a náklady.

A to je jen několik případů použití pro dolování dat.

Etapy data miningu

Dolování dat je holistický proces shromažďování, výběru, čištění, transformace a extrahování dat za účelem vyhodnocení vzorců a nakonec extrahování hodnoty.

Pochopení rozdílu mezi dolováním dat a extrakcí dat

Obecně lze celý proces dolování dat shrnout do 7 kroků:

  1. Čištění dat
    V reálném světě nejsou data vždy vyčištěna a strukturována. Jsou často hlučné, neúplné a mohou obsahovat chyby. Aby byl výsledek dolování dat přesný, musíte data nejprve vyčistit. Některé způsoby čištění zahrnují doplnění chybějících hodnot, automatické a ruční ovládání a podobně.
  2. Integrace dat
    Toto je fáze, kdy jsou data z různých zdrojů extrahována, kombinována a integrována. Zdroji mohou být databáze, textové soubory, tabulky, dokumenty, vícerozměrné datové sady, internet a tak dále.
  3. Vzorkování dat
    Obvykle nejsou při dolování dat potřeba všechna integrovaná data. Vzorkování dat je fáze, ve které jsou vybírána a extrahována pouze užitečná data z velké databáze.
  4. Konverze dat
    Jakmile jsou data vybrána, jsou převedena do forem vhodných pro těžbu. Tento proces zahrnuje normalizaci, agregaci, zobecnění atd.
  5. Dolování dat
    Zde přichází nejdůležitější část data miningu – využití inteligentních metod k nalezení vzorců v nich. Proces zahrnuje regresi, klasifikaci, predikci, shlukování, asociační učení a další.
  6. Hodnocení modelu
    Tento krok si klade za cíl identifikovat potenciálně užitečné, snadno srozumitelné vzorce a také vzorce, které podporují hypotézy.
  7. Reprezentace znalostí
    V konečné fázi jsou získané informace prezentovány atraktivním způsobem pomocí metod reprezentace znalostí a vizualizace.

Nevýhody dolování dat

  • Velká investice času a práce
    Vzhledem k tomu, že dolování dat je dlouhý a složitý proces, vyžaduje hodně práce od produktivních a kvalifikovaných lidí. Datoví vědci mohou používat výkonné nástroje pro dolování dat, ale potřebují odborníky, kteří připraví data a porozumí výsledkům. V důsledku toho může zpracování všech informací nějakou dobu trvat.
  • Ochrana osobních údajů a bezpečnost
    Protože data mining shromažďuje informace o zákaznících prostřednictvím tržních metod, může porušovat soukromí uživatelů. Kromě toho mohou hackeři získat data uložená v data miningových systémech. To představuje hrozbu pro bezpečnost dat zákazníků. Pokud jsou odcizená data zneužita, může snadno poškodit ostatní.

Výše uvedené je stručný úvod do data miningu. Jak jsem již zmínil, data mining obsahuje proces sběru a integrace dat, který zahrnuje proces extrahování dat (extrakce dat). V tomto případě lze s jistotou říci, že extrakce dat může být součástí dlouhého procesu dolování dat.

Co je to extrakce dat?

Tento proces známý také jako „dolování dat z webu“ a „web scraping“ je akt extrahování dat z (obvykle nestrukturovaných nebo špatně strukturovaných) zdrojů dat do centralizovaných umístění a centralizace na jednom místě pro uložení nebo další zpracování. Nestrukturované zdroje dat konkrétně zahrnují webové stránky, e-maily, dokumenty, soubory PDF, naskenovaný text, sestavy na sálových počítačích, soubory kotoučů, oznámení a tak dále. Centralizované úložiště může být lokální, cloudové nebo hybridní. Je důležité si uvědomit, že extrakce dat nezahrnuje zpracování nebo jinou analýzu, ke které může dojít později.

Co lze dělat s extrakcí dat?

V zásadě spadají účely extrakce dat do 3 kategorií.

  • Archivace
    Extrakce dat může převádět data z fyzických formátů, jako jsou knihy, noviny, faktury, do digitálních formátů, jako jsou databáze pro ukládání nebo zálohování.
  • Změna formátu dat
    Když chcete migrovat data ze svého aktuálního webu na nový ve vývoji, můžete shromažďovat data ze svého vlastního webu jejich extrakcí.
  • Analýza dat
    Je běžné dále analyzovat extrahovaná data, abyste do nich získali náhled. Může to znít podobně jako data mining, ale mějte na paměti, že data mining je cílem data miningu, nikoli jeho součástí. Navíc jsou data analyzována odlišně. Jedním z příkladů je, že majitelé internetových obchodů získávají informace o produktech ze stránek elektronického obchodu, jako je Amazon, aby mohli v reálném čase sledovat strategie konkurence. Stejně jako dolování dat je i extrakce dat automatizovaný proces s mnoha výhodami. V minulosti lidé ručně kopírovali a vkládali data z jednoho místa na druhé, což bylo velmi časově náročné. Extrakce dat urychluje sběr a výrazně zlepšuje přesnost extrahovaných dat.

Některé příklady použití extrakce dat

Podobně jako data mining je data mining široce využíván v různých odvětvích. Kromě sledování cen e-commerce může data mining pomoci s vaším vlastním výzkumem, agregací zpráv, marketingem, realitami, cestováním a turistikou, poradenstvím, financemi a dalšími.

  • Vedoucí generace
    Společnosti mohou extrahovat data z adresářů: Yelp, Crunchbase, Yellowpages a generovat potenciální zákazníky pro rozvoj podnikání. Můžete se podívat na video níže, kde se dozvíte, jak extrahovat data z Yellowpages pomocí šablona pro škrábání webu.

  • Agregace obsahu a zpráv
    Webové stránky shromažďující obsah mohou přijímat pravidelné zdroje dat z různých zdrojů a udržovat své stránky aktuální.
  • Analýza sentimentu
    Po získání recenzí, komentářů a recenzí ze sociálních sítí, jako je Instagram a Twitter, mohou odborníci analyzovat základní postoje a získat přehled o tom, jak je značka, produkt nebo fenomén vnímán.

Kroky extrakce dat

Extrakce dat je první fází ETL (Extract, Transform, Load: Extract, Transform, Load) a ELT (Extract, Load, and Transform). ETL a ELT jsou samy součástí kompletní strategie integrace dat. Jinými slovy, extrakce dat může být součástí jejich extrakce.

Pochopení rozdílu mezi dolováním dat a extrakcí dat
Extrahovat, transformovat, načíst

Zatímco data mining je výhradně o extrahování informací z velkého množství dat, extrakce dat je mnohem kratší a jednodušší proces. Lze jej zredukovat na tři stupně:

  1. Výběr zdroje dat
    Vyberte zdroj, ze kterého chcete extrahovat data, například web.
  2. Sběr dat
    Pošlete na web požadavek „GET“ a analyzujte výsledný HTML dokument pomocí programovacích jazyků, jako je Python, PHP, R, Ruby atd.
  3. Ukládání dat
    Uložte data do místní databáze nebo cloudového úložiště pro budoucí použití. Pokud jste zkušený programátor, který chce extrahovat data, výše uvedené kroky se vám mohou zdát jednoduché. Pokud však nejste programátor, existuje zkratka - použijte nástroje pro dolování dat jako Octoparse. Nástroje pro extrakci dat, stejně jako nástroje pro dolování dat, jsou navrženy tak, aby šetřily energii a usnadňovaly zpracování dat pro každého. Tyto nástroje jsou nejen ekonomické, ale také vhodné pro začátečníky. Umožňují uživatelům sbírat data během několika minut, ukládat je do cloudu a exportovat do mnoha formátů: Excel, CSV, HTML, JSON nebo do databází na webu prostřednictvím API.

Nevýhody extrakce dat

  • Selhání serveru
    Při extrakci dat ve velkém měřítku může být webový server cílového webu přetížen, což může vést k havárii serveru. To poškodí zájmy vlastníka webu.
  • Zákaz podle IP
    Když osoba shromažďuje data příliš často, webové stránky mohou zablokovat její IP adresu. Zdroj může zcela zakázat IP adresu nebo omezit přístup tím, že data budou neúplná. Chcete-li načíst data a vyhnout se blokování, musíte to udělat při střední rychlosti a použít některé techniky proti blokování.
  • Problémy se zákonem
    Získávání dat z webu spadá do šedé zóny, pokud jde o zákonnost. Velké weby jako Linkedin a Facebook ve svých podmínkách používání jasně uvádějí, že jakákoli automatická extrakce dat je zakázána. Mezi společnostmi došlo k mnoha soudním sporům kvůli aktivitám botů.

Klíčové rozdíly mezi dolováním dat a extrakcí dat

  1. Dolování dat se také nazývá objevování znalostí v databázích, extrakce znalostí, analýza dat/vzorů, shromažďování informací. Extrakce dat se používá zaměnitelně s extrakcí dat z webu, skenováním webových stránek, sběrem dat a tak dále.
  2. Výzkum data miningu je většinou založen na strukturovaných datech, zatímco data mining obvykle čerpá z nestrukturovaných nebo špatně strukturovaných zdrojů.
  3. Cílem data miningu je učinit data užitečnějšími pro analýzu. Extrakce dat je shromažďování dat na jednom místě, kde je lze uložit nebo zpracovat.
  4. Analýza v data miningu je založena na matematických metodách pro identifikaci vzorců nebo trendů. Extrakce dat je založena na programovacích jazycích nebo nástrojích pro extrakci dat k obcházení zdrojů.
  5. Účelem dolování dat je najít skutečnosti, které nebyly dříve známy nebo ignorovány, zatímco extrakce dat se zabývá existujícími informacemi.
  6. Data mining je složitější a vyžaduje velké investice do školení lidí. Extrakce dat pomocí správného nástroje může být extrémně snadná a nákladově efektivní.

Pomáháme začátečníkům, aby se v Data nezmátli. Speciálně pro habravchany jsme udělali propagační kód HABR, poskytující dodatečnou slevu 10 % ke slevě uvedené na banneru.

Pochopení rozdílu mezi dolováním dat a extrakcí dat

Více kurzů

Doporučené články

Zdroj: www.habr.com