Forstå forskellen mellem Data Mining og Data Extraction

Forstå forskellen mellem Data Mining og Data Extraction
Disse to Data Science buzzwords forvirrer mange mennesker. Data Mining bliver ofte misforstået som at udtrække og hente data, men virkeligheden er meget mere kompleks. I dette indlæg, lad os prikke minedrift og finde ud af forskellen mellem Data Mining og Data Extraction.

Hvad er Data Mining?

Data mining, også kaldet Database Knowledge Discovery (KDD), er en teknik, der ofte bruges til at analysere store datasæt ved hjælp af statistiske og matematiske metoder for at finde skjulte mønstre eller tendenser og udvinde værdi fra dem.

Hvad kan man gøre med Data Mining?

Ved at automatisere processen, data mining værktøjer kan gennemse databaser og effektivt afdække skjulte mønstre. For virksomheder bruges datamining ofte til at opdage mønstre og relationer i data for at hjælpe med at træffe bedre forretningsbeslutninger.

Anvendelseseksempler

Efter at data mining blev udbredt i 1990'erne, begyndte virksomheder i en lang række brancher, herunder detailhandel, finans, sundhedspleje, transport, telekommunikation, e-handel osv., at bruge data mining metoder til at indhente information på datagrundlag. Data mining kan hjælpe med at segmentere kunder, identificere svindel, forudsige salg og meget mere.

  • Kundesegmentering
    Ved at analysere kundedata og identificere træk ved målkunder, kan virksomheder gruppere dem i en separat gruppe og give særlige tilbud, der opfylder deres behov.
  • Analyse af markedskurven
    Denne teknik er baseret på teorien om, at hvis du køber en bestemt gruppe af produkter, er der større sandsynlighed for, at du køber en anden gruppe af produkter. Et berømt eksempel: Når fædre køber bleer til deres babyer, har de en tendens til at købe øl sammen med bleerne.
  • Salgsprognose
    Det kan ligne markedskurvanalyse, men denne gang bruges dataanalyse til at forudsige, hvornår en kunde vil købe et produkt igen i fremtiden. For eksempel køber en coach en dåse protein, der skal holde i 9 måneder. Butikken, der sælger dette protein, planlægger at frigive et nyt om 9 måneder, så træneren vil købe det igen.
  • Opdagelse af svindel
    Data mining hjælper med at bygge modeller til afsløring af svindel. Ved at indsamle prøver af svigagtige og sandfærdige rapporter får virksomhederne beføjelser til at afgøre, hvilke transaktioner der er mistænkelige.
  • Mønsterdetektion i produktionen
    I fremstillingsindustrien bruges datamining til at hjælpe med at designe systemer ved at identificere forholdet mellem produktarkitektur, profil og kundebehov. Data mining kan også forudsige produktudviklingstider og omkostninger.

Og disse er blot nogle få use cases til data mining.

Stadier af data mining

Data mining er en holistisk proces med at indsamle, udvælge, rense, transformere og udtrække data for at evaluere mønstre og i sidste ende udvinde værdi.

Forstå forskellen mellem Data Mining og Data Extraction

Generelt kan hele data mining-processen opsummeres i 7 trin:

  1. Datarensning
    I den virkelige verden er data ikke altid renset og struktureret. De er ofte støjende, ufuldstændige og kan indeholde fejl. For at sikre, at data mining-resultatet er nøjagtigt, skal du først rydde op i dataene. Nogle rengøringsmetoder omfatter udfyldning af manglende værdier, automatiske og manuelle kontroller og så videre.
  2. Dataintegration
    Dette er stadiet, hvor data fra forskellige kilder udtrækkes, kombineres og integreres. Kilder kan være databaser, tekstfiler, regneark, dokumenter, multidimensionelle datasæt, internettet og så videre.
  3. Datasampling
    Normalt er ikke alle integrerede data nødvendige i data mining. Datasampling er den fase, hvor kun nyttige data udvælges og udtrækkes fra en stor database.
  4. Datakonvertering
    Når dataene er valgt, konverteres de til former, der er egnede til minedrift. Denne proces inkluderer normalisering, aggregering, generalisering osv.
  5. Data mining
    Her kommer den vigtigste del af datamining – at bruge intelligente metoder til at finde mønstre i dem. Processen omfatter regression, klassificering, forudsigelse, klyngedannelse, associationslæring og mere.
  6. Model evaluering
    Dette trin har til formål at identificere potentielt nyttige, letforståelige mønstre såvel som mønstre, der understøtter hypoteser.
  7. Vidensrepræsentation
    På den sidste fase præsenteres den opnåede information på en attraktiv måde ved hjælp af videnrepræsentation og visualiseringsmetoder.

Ulemper ved Data Mining

  • Stor investering af tid og arbejdskraft
    Da data mining er en lang og kompleks proces, kræver det meget arbejde fra produktive og dygtige mennesker. Dataforskere kan bruge kraftfulde dataminingværktøjer, men de har brug for eksperter til at forberede dataene og forstå resultaterne. Som følge heraf kan det tage noget tid at behandle alle oplysningerne.
  • Databeskyttelse og sikkerhed
    Fordi data mining indsamler kundeoplysninger gennem markedsmetoder, kan det krænke brugernes privatliv. Derudover kan hackere få data, der er lagret i datamining-systemer. Dette udgør en trussel mod sikkerheden af ​​kundedata. Hvis de stjålne data misbruges, kan det nemt skade andre.

Ovenstående er en kort introduktion til data mining. Som jeg allerede har nævnt, indeholder data mining processen med at indsamle og integrere data, hvilket inkluderer processen med at udtrække data (dataekstraktion). I dette tilfælde er det sikkert at sige, at dataudvinding kan være en del af en lang dataminingproces.

Hvad er dataudtræk?

Også kendt som "web data mining" og "web scraping", er denne proces handlingen at udtrække data fra (normalt ustrukturerede eller dårligt strukturerede) datakilder til centraliserede lokationer og centralisering på ét sted til lagring eller yderligere behandling. Specifikt omfatter ustrukturerede datakilder websider, e-mail, dokumenter, PDF-filer, scannet tekst, mainframe-rapporter, rullefiler, meddelelser og så videre. Centraliseret lagring kan være lokal, cloud eller hybrid. Det er vigtigt at huske, at dataudtræk ikke omfatter behandling eller anden analyse, der kan forekomme senere.

Hvad kan man gøre med dataudtræk?

Grundlæggende falder dataudtrækningsformål i 3 kategorier.

  • Arkivering
    Dataudtræk kan konvertere data fra fysiske formater som bøger, aviser, fakturaer til digitale formater som databaser til opbevaring eller backup.
  • Ændring af dataformat
    Når du vil migrere data fra dit nuværende websted til et nyt under udvikling, kan du indsamle data fra dit eget websted ved at udtrække det.
  • Dataanalyse
    Det er almindeligt at analysere de udtrukne data yderligere for at få indsigt i det. Dette lyder måske som datamining, men husk på, at datamining er målet for datamining, ikke en del af det. Desuden analyseres data forskelligt. Et eksempel er, at onlinebutiksejere trækker produktinformation fra e-handelssider som Amazon for at overvåge konkurrentstrategier i realtid. Ligesom data mining er dataudtræk en automatiseret proces med mange fordele. Tidligere kopierede og indsatte folk data manuelt fra et sted til et andet, hvilket var meget tidskrævende. Dataudtræk fremskynder indsamlingen og forbedrer i høj grad nøjagtigheden af ​​de udtrukne data.

Nogle eksempler på brug af dataudtræk

I lighed med data mining er data mining meget udbredt i forskellige industrier. Ud over overvågning af e-handelspriser kan datamining hjælpe med din egen research, nyhedsaggregering, marketing, fast ejendom, rejser og turisme, rådgivning, finansiering og mere.

  • Førende generation
    Virksomheder kan udtrække data fra mapper: Yelp, Crunchbase, Yellowpages og generere leads til forretningsudvikling. Du kan se videoen nedenfor for at lære, hvordan du udtrækker data fra Yellowpages med web skrabning skabelon.

  • Samling af indhold og nyheder
    Websteder, der samler indhold, kan modtage regelmæssige datafeeds fra flere kilder og holde deres websteder opdateret.
  • Følelsesanalyse
    Efter at have udtrukket anmeldelser, kommentarer og udtalelser fra sociale netværk som Instagram og Twitter, kan fagfolk analysere de underliggende holdninger og få indsigt i, hvordan et brand, et produkt eller et fænomen opfattes.

Dataekstraktionstrin

Dataudtræk er den første fase af ETL (Extract, Transform, Load: Extract, Transform, Load) og ELT (Extract, Load og Transform). ETL og ELT er selv en del af en komplet dataintegrationsstrategi. Med andre ord kan udtrækning af data være en del af deres udtrækning.

Forstå forskellen mellem Data Mining og Data Extraction
Udtrække, transformere, indlæse

Mens data mining handler om at udtrække information fra store mængder data, er dataudtrækning en meget kortere og enklere proces. Det kan reduceres til tre faser:

  1. Valg af datakilde
    Vælg den kilde, du vil udtrække data fra, såsom et websted.
  2. Dataindsamling
    Send en "GET"-anmodning til webstedet og parse det resulterende HTML-dokument ved hjælp af programmeringssprog som Python, PHP, R, Ruby osv.
  3. Data opbevaring
    Gem dataene til din lokale database eller skylager til fremtidig brug. Hvis du er en erfaren programmør, der ønsker at udtrække data, kan ovenstående trin virke enkle for dig. Men hvis du ikke er programmør, er der en genvej - brug data mining-værktøjer som f.eks Octoparse. Dataekstraktionsværktøjer er, ligesom data mining-værktøjer, designet til at spare energi og gøre databehandling nem for alle. Disse værktøjer er ikke kun økonomiske, men også begyndervenlige. De giver brugerne mulighed for at indsamle data på få minutter, gemme dem i skyen og eksportere dem til mange formater: Excel, CSV, HTML, JSON eller til databaser på webstedet via en API.

Ulemper ved dataudtræk

  • Serverfejl
    Når du udtrækker data i stor skala, kan webserveren på målstedet være overbelastet, hvilket kan føre til et servernedbrud. Dette vil skade webstedsejerens interesser.
  • Forbud af IP
    Når en person indsamler data for ofte, kan websteder blokere deres IP-adresse. En ressource kan fuldstændigt forbyde en IP-adresse eller begrænse adgangen ved at gøre dataene ufuldstændige. For at hente data og undgå blokering skal du gøre det med en moderat hastighed og anvende nogle anti-blokeringsteknikker.
  • Problemer med loven
    Udtræk af data fra nettet falder i en gråzone, når det kommer til lovlighed. Store sider som Linkedin og Facebook angiver tydeligt i deres brugsbetingelser, at enhver automatisk udtrækning af data er forbudt. Der har været mange retssager mellem virksomheder på grund af botaktiviteter.

Nøgleforskelle mellem datamining og dataekstraktion

  1. Data mining kaldes også videnopdagelse i databaser, videnudtræk, data/mønsteranalyse, informationsindsamling. Dataudtræk bruges i flæng med webdataudtræk, websidescanning, dataindsamling og så videre.
  2. Data mining-forskning er for det meste baseret på strukturerede data, mens data mining normalt trækker fra ustrukturerede eller dårligt strukturerede kilder.
  3. Målet med data mining er at gøre data mere brugbare til analyse. Dataudtræk er indsamling af data på ét sted, hvor de kan opbevares eller behandles.
  4. Analyse i data mining er baseret på matematiske metoder til at identificere mønstre eller tendenser. Dataudtræk er baseret på programmeringssprog eller dataudtræksværktøjer til at omgå kilder.
  5. Formålet med datamining er at finde fakta, der ikke tidligere var kendt eller ignoreret, mens dataudtræk omhandler eksisterende information.
  6. Data mining er mere kompleks og kræver en stor investering i uddannelse af folk. Dataudtræk med det rigtige værktøj kan være ekstremt nemt og omkostningseffektivt.

Vi hjælper begyndere med ikke at blive forvirrede i Data. Specielt for habravchans lavede vi en kampagnekode HABR, hvilket giver yderligere 10 % rabat til den rabat, der er angivet på banneret.

Forstå forskellen mellem Data Mining og Data Extraction

Flere kurser

Udvalgte artikler

Kilde: www.habr.com