Forstå forskellen mellem Data Mining og Data Extraction
Disse to Data Science buzzwords forvirrer mange mennesker. Data Mining bliver ofte misforstået som at udtrække og hente data, men virkeligheden er meget mere kompleks. I dette indlæg, lad os prikke minedrift og finde ud af forskellen mellem Data Mining og Data Extraction.
Hvad er Data Mining?
Data mining, også kaldet Database Knowledge Discovery (KDD), er en teknik, der ofte bruges til at analysere store datasæt ved hjælp af statistiske og matematiske metoder for at finde skjulte mønstre eller tendenser og udvinde værdi fra dem.
Hvad kan man gøre med Data Mining?
Ved at automatisere processen, data mining værktøjer kan gennemse databaser og effektivt afdække skjulte mønstre. For virksomheder bruges datamining ofte til at opdage mønstre og relationer i data for at hjælpe med at træffe bedre forretningsbeslutninger.
Anvendelseseksempler
Efter at data mining blev udbredt i 1990'erne, begyndte virksomheder i en lang række brancher, herunder detailhandel, finans, sundhedspleje, transport, telekommunikation, e-handel osv., at bruge data mining metoder til at indhente information på datagrundlag. Data mining kan hjælpe med at segmentere kunder, identificere svindel, forudsige salg og meget mere.
Kundesegmentering
Ved at analysere kundedata og identificere træk ved målkunder, kan virksomheder gruppere dem i en separat gruppe og give særlige tilbud, der opfylder deres behov.
Analyse af markedskurven
Denne teknik er baseret på teorien om, at hvis du køber en bestemt gruppe af produkter, er der større sandsynlighed for, at du køber en anden gruppe af produkter. Et berømt eksempel: Når fædre køber bleer til deres babyer, har de en tendens til at købe øl sammen med bleerne.
Salgsprognose
Det kan ligne markedskurvanalyse, men denne gang bruges dataanalyse til at forudsige, hvornår en kunde vil købe et produkt igen i fremtiden. For eksempel køber en coach en dåse protein, der skal holde i 9 måneder. Butikken, der sælger dette protein, planlægger at frigive et nyt om 9 måneder, så træneren vil købe det igen.
Opdagelse af svindel
Data mining hjælper med at bygge modeller til afsløring af svindel. Ved at indsamle prøver af svigagtige og sandfærdige rapporter får virksomhederne beføjelser til at afgøre, hvilke transaktioner der er mistænkelige.
Mønsterdetektion i produktionen
I fremstillingsindustrien bruges datamining til at hjælpe med at designe systemer ved at identificere forholdet mellem produktarkitektur, profil og kundebehov. Data mining kan også forudsige produktudviklingstider og omkostninger.
Og disse er blot nogle få use cases til data mining.
Stadier af data mining
Data mining er en holistisk proces med at indsamle, udvælge, rense, transformere og udtrække data for at evaluere mønstre og i sidste ende udvinde værdi.
Generelt kan hele data mining-processen opsummeres i 7 trin:
Datarensning
I den virkelige verden er data ikke altid renset og struktureret. De er ofte støjende, ufuldstændige og kan indeholde fejl. For at sikre, at data mining-resultatet er nøjagtigt, skal du først rydde op i dataene. Nogle rengøringsmetoder omfatter udfyldning af manglende værdier, automatiske og manuelle kontroller og så videre.
Dataintegration
Dette er stadiet, hvor data fra forskellige kilder udtrækkes, kombineres og integreres. Kilder kan være databaser, tekstfiler, regneark, dokumenter, multidimensionelle datasæt, internettet og så videre.
Datasampling
Normalt er ikke alle integrerede data nødvendige i data mining. Datasampling er den fase, hvor kun nyttige data udvælges og udtrækkes fra en stor database.
Datakonvertering
Når dataene er valgt, konverteres de til former, der er egnede til minedrift. Denne proces inkluderer normalisering, aggregering, generalisering osv.
Data mining
Her kommer den vigtigste del af datamining – at bruge intelligente metoder til at finde mønstre i dem. Processen omfatter regression, klassificering, forudsigelse, klyngedannelse, associationslæring og mere.
Model evaluering
Dette trin har til formål at identificere potentielt nyttige, letforståelige mønstre såvel som mønstre, der understøtter hypoteser.
Vidensrepræsentation
På den sidste fase præsenteres den opnåede information på en attraktiv måde ved hjælp af videnrepræsentation og visualiseringsmetoder.
Ulemper ved Data Mining
Stor investering af tid og arbejdskraft
Da data mining er en lang og kompleks proces, kræver det meget arbejde fra produktive og dygtige mennesker. Dataforskere kan bruge kraftfulde dataminingværktøjer, men de har brug for eksperter til at forberede dataene og forstå resultaterne. Som følge heraf kan det tage noget tid at behandle alle oplysningerne.
Databeskyttelse og sikkerhed
Fordi data mining indsamler kundeoplysninger gennem markedsmetoder, kan det krænke brugernes privatliv. Derudover kan hackere få data, der er lagret i datamining-systemer. Dette udgør en trussel mod sikkerheden af kundedata. Hvis de stjålne data misbruges, kan det nemt skade andre.
Ovenstående er en kort introduktion til data mining. Som jeg allerede har nævnt, indeholder data mining processen med at indsamle og integrere data, hvilket inkluderer processen med at udtrække data (dataekstraktion). I dette tilfælde er det sikkert at sige, at dataudvinding kan være en del af en lang dataminingproces.
Hvad er dataudtræk?
Også kendt som "web data mining" og "web scraping", er denne proces handlingen at udtrække data fra (normalt ustrukturerede eller dårligt strukturerede) datakilder til centraliserede lokationer og centralisering på ét sted til lagring eller yderligere behandling. Specifikt omfatter ustrukturerede datakilder websider, e-mail, dokumenter, PDF-filer, scannet tekst, mainframe-rapporter, rullefiler, meddelelser og så videre. Centraliseret lagring kan være lokal, cloud eller hybrid. Det er vigtigt at huske, at dataudtræk ikke omfatter behandling eller anden analyse, der kan forekomme senere.
Hvad kan man gøre med dataudtræk?
Grundlæggende falder dataudtrækningsformål i 3 kategorier.
Arkivering
Dataudtræk kan konvertere data fra fysiske formater som bøger, aviser, fakturaer til digitale formater som databaser til opbevaring eller backup.
Ændring af dataformat
Når du vil migrere data fra dit nuværende websted til et nyt under udvikling, kan du indsamle data fra dit eget websted ved at udtrække det.
Dataanalyse
Det er almindeligt at analysere de udtrukne data yderligere for at få indsigt i det. Dette lyder måske som datamining, men husk på, at datamining er målet for datamining, ikke en del af det. Desuden analyseres data forskelligt. Et eksempel er, at onlinebutiksejere trækker produktinformation fra e-handelssider som Amazon for at overvåge konkurrentstrategier i realtid. Ligesom data mining er dataudtræk en automatiseret proces med mange fordele. Tidligere kopierede og indsatte folk data manuelt fra et sted til et andet, hvilket var meget tidskrævende. Dataudtræk fremskynder indsamlingen og forbedrer i høj grad nøjagtigheden af de udtrukne data.
Nogle eksempler på brug af dataudtræk
I lighed med data mining er data mining meget udbredt i forskellige industrier. Ud over overvågning af e-handelspriser kan datamining hjælpe med din egen research, nyhedsaggregering, marketing, fast ejendom, rejser og turisme, rådgivning, finansiering og mere.
Førende generation
Virksomheder kan udtrække data fra mapper: Yelp, Crunchbase, Yellowpages og generere leads til forretningsudvikling. Du kan se videoen nedenfor for at lære, hvordan du udtrækker data fra Yellowpages med web skrabning skabelon.
Samling af indhold og nyheder
Websteder, der samler indhold, kan modtage regelmæssige datafeeds fra flere kilder og holde deres websteder opdateret.
Følelsesanalyse
Efter at have udtrukket anmeldelser, kommentarer og udtalelser fra sociale netværk som Instagram og Twitter, kan fagfolk analysere de underliggende holdninger og få indsigt i, hvordan et brand, et produkt eller et fænomen opfattes.
Dataekstraktionstrin
Dataudtræk er den første fase af ETL (Extract, Transform, Load: Extract, Transform, Load) og ELT (Extract, Load og Transform). ETL og ELT er selv en del af en komplet dataintegrationsstrategi. Med andre ord kan udtrækning af data være en del af deres udtrækning.
Udtrække, transformere, indlæse
Mens data mining handler om at udtrække information fra store mængder data, er dataudtrækning en meget kortere og enklere proces. Det kan reduceres til tre faser:
Valg af datakilde
Vælg den kilde, du vil udtrække data fra, såsom et websted.
Dataindsamling
Send en "GET"-anmodning til webstedet og parse det resulterende HTML-dokument ved hjælp af programmeringssprog som Python, PHP, R, Ruby osv.
Data opbevaring
Gem dataene til din lokale database eller skylager til fremtidig brug. Hvis du er en erfaren programmør, der ønsker at udtrække data, kan ovenstående trin virke enkle for dig. Men hvis du ikke er programmør, er der en genvej - brug data mining-værktøjer som f.eks Octoparse. Dataekstraktionsværktøjer er, ligesom data mining-værktøjer, designet til at spare energi og gøre databehandling nem for alle. Disse værktøjer er ikke kun økonomiske, men også begyndervenlige. De giver brugerne mulighed for at indsamle data på få minutter, gemme dem i skyen og eksportere dem til mange formater: Excel, CSV, HTML, JSON eller til databaser på webstedet via en API.
Ulemper ved dataudtræk
Serverfejl
Når du udtrækker data i stor skala, kan webserveren på målstedet være overbelastet, hvilket kan føre til et servernedbrud. Dette vil skade webstedsejerens interesser.
Forbud af IP
Når en person indsamler data for ofte, kan websteder blokere deres IP-adresse. En ressource kan fuldstændigt forbyde en IP-adresse eller begrænse adgangen ved at gøre dataene ufuldstændige. For at hente data og undgå blokering skal du gøre det med en moderat hastighed og anvende nogle anti-blokeringsteknikker.
Problemer med loven
Udtræk af data fra nettet falder i en gråzone, når det kommer til lovlighed. Store sider som Linkedin og Facebook angiver tydeligt i deres brugsbetingelser, at enhver automatisk udtrækning af data er forbudt. Der har været mange retssager mellem virksomheder på grund af botaktiviteter.
Nøgleforskelle mellem datamining og dataekstraktion
Data mining kaldes også videnopdagelse i databaser, videnudtræk, data/mønsteranalyse, informationsindsamling. Dataudtræk bruges i flæng med webdataudtræk, websidescanning, dataindsamling og så videre.
Data mining-forskning er for det meste baseret på strukturerede data, mens data mining normalt trækker fra ustrukturerede eller dårligt strukturerede kilder.
Målet med data mining er at gøre data mere brugbare til analyse. Dataudtræk er indsamling af data på ét sted, hvor de kan opbevares eller behandles.
Analyse i data mining er baseret på matematiske metoder til at identificere mønstre eller tendenser. Dataudtræk er baseret på programmeringssprog eller dataudtræksværktøjer til at omgå kilder.
Formålet med datamining er at finde fakta, der ikke tidligere var kendt eller ignoreret, mens dataudtræk omhandler eksisterende information.
Data mining er mere kompleks og kræver en stor investering i uddannelse af folk. Dataudtræk med det rigtige værktøj kan være ekstremt nemt og omkostningseffektivt.
Vi hjælper begyndere med ikke at blive forvirrede i Data. Specielt for habravchans lavede vi en kampagnekode HABR, hvilket giver yderligere 10 % rabat til den rabat, der er angivet på banneret.