Het verschil begrijpen tussen datamining en data-extractie

Het verschil begrijpen tussen datamining en data-extractie
Deze twee Data Science-modewoorden brengen veel mensen in verwarring. Datamining wordt vaak verkeerd begrepen als het extraheren en ophalen van gegevens, maar de realiteit is veel complexer. Laten we in dit bericht eens kijken naar mijnbouw en het verschil ontdekken tussen datamining en data-extractie.

Wat is datamining?

Datamining, ook wel genoemd Database Knowledge Discovery (KDD), is een techniek die vaak wordt gebruikt om grote datasets te analyseren met behulp van statistische en wiskundige methoden om verborgen patronen of trends te vinden en er waarde uit te halen.

Wat kan er gedaan worden met datamining?

Door het proces te automatiseren, tools voor datamining kan door databases bladeren en verborgen patronen effectief ontdekken. Voor bedrijven wordt datamining vaak gebruikt om patronen en relaties in gegevens te ontdekken om betere zakelijke beslissingen te helpen nemen.

Toepassingsvoorbeelden

Nadat datamining in de jaren negentig wijdverspreid werd, begonnen bedrijven in een breed scala van industrieën, waaronder detailhandel, financiën, gezondheidszorg, transport, telecommunicatie, e-commerce, enz., dataminingmethoden te gebruiken om informatie op databasis te verkrijgen. Datamining kan helpen klanten te segmenteren, fraude te identificeren, verkopen te voorspellen en meer.

  • Klantsegmentatie
    Door klantgegevens te analyseren en de kenmerken van de doelgroep te identificeren, kunnen bedrijven deze in een afzonderlijke groep groeperen en speciale aanbiedingen aanbieden die aan hun behoeften voldoen.
  • Analyse van het marktmandje
    Deze techniek is gebaseerd op de theorie dat als je een bepaalde groep producten koopt, de kans groter is dat je ook een andere groep producten koopt. Een beroemd voorbeeld: als vaders luiers voor hun baby's kopen, kopen ze vaak ook bier samen met de luiers.
  • Verkoopvoorspellingen
    Het lijkt misschien op marktmandanalyse, maar deze keer wordt data-analyse gebruikt om te voorspellen wanneer een klant in de toekomst weer een product zal kopen. Een coach koopt bijvoorbeeld een blikje eiwit waar 9 maanden mee gedaan moet worden. De winkel die dit eiwit verkoopt, is van plan over negen maanden een nieuw eiwit op de markt te brengen, zodat de coach het opnieuw kan kopen.
  • Fraude detectie
    Datamining helpt bij het bouwen van modellen voor fraudedetectie. Door monsters van frauduleuze en waarheidsgetrouwe rapporten te verzamelen, kunnen bedrijven bepalen welke transacties verdacht zijn.
  • Patroondetectie in productie
    In de productie-industrie wordt datamining gebruikt om systemen te helpen ontwerpen door de relatie tussen productarchitectuur, profiel en klantbehoeften te identificeren. Datamining kan ook de ontwikkelingstijden en -kosten van producten voorspellen.

En dit zijn slechts enkele gebruiksscenario's voor datamining.

Stadia van datamining

Datamining is een holistisch proces van het verzamelen, selecteren, opschonen, transformeren en extraheren van gegevens om patronen te evalueren en uiteindelijk waarde te extraheren.

Het verschil begrijpen tussen datamining en data-extractie

Over het algemeen kan het hele dataminingproces worden samengevat in 7 stappen:

  1. Data-opschoning
    In de echte wereld worden gegevens niet altijd opgeschoond en gestructureerd. Ze zijn vaak luidruchtig, onvolledig en kunnen fouten bevatten. Om er zeker van te zijn dat het dataminingresultaat accuraat is, moet u eerst de gegevens opschonen. Sommige reinigingsmethoden omvatten het invullen van ontbrekende waarden, automatische en handmatige controles, enzovoort.
  2. Gegevens integratie
    Dit is de fase waarin gegevens uit verschillende bronnen worden geëxtraheerd, gecombineerd en geïntegreerd. Bronnen kunnen databases, tekstbestanden, spreadsheets, documenten, multidimensionale datasets, internet, enzovoort zijn.
  3. Gegevensbemonstering
    Meestal zijn niet alle geïntegreerde gegevens nodig bij datamining. Gegevensbemonstering is de fase waarin alleen bruikbare gegevens worden geselecteerd en uit een grote database worden gehaald.
  4. Data conversie
    Zodra de gegevens zijn geselecteerd, worden deze omgezet in vormen die geschikt zijn voor mining. Dit proces omvat normalisatie, aggregatie, generalisatie, enz.
  5. Datamining
    Hier komt het belangrijkste onderdeel van datamining: het gebruik van intelligente methoden om er patronen in te vinden. Het proces omvat regressie, classificatie, voorspelling, clustering, associatieleren en meer.
  6. Modelevaluatie
    Deze stap heeft tot doel potentieel bruikbare, gemakkelijk te begrijpen patronen te identificeren, evenals patronen die hypothesen ondersteunen.
  7. Kennisrepresentatie
    In de laatste fase wordt de verkregen informatie op een aantrekkelijke manier gepresenteerd met behulp van kennisrepresentatie- en visualisatiemethoden.

Nadelen van datamining

  • Grote investering in tijd en arbeid
    Omdat datamining een lang en complex proces is, vereist het veel werk van productieve en bekwame mensen. Datawetenschappers kunnen krachtige dataminingtools gebruiken, maar ze hebben experts nodig om de data voor te bereiden en de resultaten te begrijpen. Hierdoor kan het enige tijd duren voordat alle informatie is verwerkt.
  • Gegevensprivacy en -beveiliging
    Omdat datamining klantinformatie verzamelt via marktmethoden, kan dit de privacy van gebruikers schenden. Bovendien kunnen hackers gegevens verkrijgen die zijn opgeslagen in dataminingsystemen. Dit vormt een bedreiging voor de veiligheid van klantgegevens. Als de gestolen gegevens worden misbruikt, kan dit anderen gemakkelijk schade berokkenen.

Het bovenstaande is een korte introductie tot datamining. Zoals ik al zei, omvat datamining het proces van het verzamelen en integreren van gegevens, inclusief het proces van het extraheren van gegevens (data-extractie). In dit geval is het veilig om te zeggen dat data-extractie onderdeel kan zijn van een lang dataminingproces.

Wat is gegevensextractie?

Dit proces, ook bekend als "webdatamining" en "webscraping", is het extraheren van gegevens uit (meestal ongestructureerde of slecht gestructureerde) gegevensbronnen naar gecentraliseerde locaties en centralisatie op één locatie voor opslag of verdere verwerking. Tot ongestructureerde gegevensbronnen behoren met name webpagina's, e-mail, documenten, PDF-bestanden, gescande tekst, mainframerapporten, reelbestanden, aankondigingen, enzovoort. Gecentraliseerde opslag kan lokaal, in de cloud of hybride zijn. Het is belangrijk om te onthouden dat gegevensextractie geen verwerking of andere analyses omvat die later kunnen plaatsvinden.

Wat kan er gedaan worden met data-extractie?

In principe vallen de doeleinden van gegevensextractie in 3 categorieën.

  • Archiveren
    Gegevensextractie kan gegevens van fysieke formaten zoals boeken, kranten en facturen omzetten naar digitale formaten zoals databases voor opslag of back-up.
  • Het gegevensformaat wijzigen
    Wanneer u gegevens van uw huidige site naar een nieuwe site in ontwikkeling wilt migreren, kunt u gegevens van uw eigen site verzamelen door deze te extraheren.
  • Gegevensanalyse
    Het is gebruikelijk om de gewonnen data verder te analyseren om er inzicht in te krijgen. Dit klinkt misschien hetzelfde als datamining, maar houd er rekening mee dat datamining het doel van datamining is en er geen onderdeel van is. Bovendien worden de gegevens anders geanalyseerd. Een voorbeeld is dat eigenaren van online winkels productinformatie van e-commercesites zoals Amazon halen om de strategieën van concurrenten in realtime te volgen. Net als datamining is data-extractie een geautomatiseerd proces met veel voordelen. In het verleden kopieerden en plakten mensen gegevens handmatig van de ene plaats naar de andere, wat erg tijdrovend was. Gegevensextractie versnelt het verzamelen en verbetert de nauwkeurigheid van de geëxtraheerde gegevens aanzienlijk.

Enkele voorbeelden van het gebruik van gegevensextractie

Net als datamining wordt datamining veel gebruikt in verschillende industrieën. Naast het monitoren van de prijs van e-commerce kan datamining helpen bij uw eigen onderzoek, nieuwsaggregatie, marketing, onroerend goed, reizen en toerisme, advies, financiën en meer.

  • Leadgeneratie
    Bedrijven kunnen gegevens uit mappen halen: Yelp, Crunchbase, Yellowpages en leads genereren voor bedrijfsontwikkeling. U kunt de onderstaande video bekijken om te leren hoe u gegevens uit Yellowpages kunt extraheren webscraping-sjabloon.

  • Samenvoeging van inhoud en nieuws
    Websites die inhoud verzamelen, kunnen regelmatig datafeeds ontvangen van meerdere bronnen en hun sites up-to-date houden.
  • Sentiment analyse
    Na het verzamelen van recensies, commentaren en getuigenissen van sociale netwerken zoals Instagram en Twitter, kunnen professionals de onderliggende attitudes analyseren en inzicht krijgen in hoe een merk, product of fenomeen wordt waargenomen.

Stappen voor gegevensextractie

Gegevensextractie is de eerste fase van ETL (Extract, Transform, Load: Extract, Transform, Load) en ELT (Extract, Load en Transform). ETL en ELT maken zelf deel uit van een complete data-integratiestrategie. Met andere woorden: het extraheren van gegevens kan deel uitmaken van de extractie ervan.

Het verschil begrijpen tussen datamining en data-extractie
Extraheren, transformeren, laden

Terwijl datamining draait om het extraheren van informatie uit grote hoeveelheden gegevens, is data-extractie een veel korter en eenvoudiger proces. Het kan worden teruggebracht tot drie fasen:

  1. Een gegevensbron selecteren
    Selecteer de bron waaruit u gegevens wilt extraheren, zoals een website.
  2. Gegevensverzameling
    Stuur een "GET"-verzoek naar de site en parseer het resulterende HTML-document met behulp van programmeertalen zoals Python, PHP, R, Ruby, enz.
  3. Data opslag
    Sla de gegevens op in uw lokale database of cloudopslag voor toekomstig gebruik. Als u een ervaren programmeur bent die gegevens wil extraheren, lijken de bovenstaande stappen u misschien eenvoudig. Als u echter geen programmeur bent, is er een kortere weg: gebruik dataminingtools zoals Octopars. Data-extractietools zijn, net als dataminingtools, ontworpen om energie te besparen en de gegevensverwerking voor iedereen gemakkelijk te maken. Deze tools zijn niet alleen economisch, maar ook beginnersvriendelijk. Ze stellen gebruikers in staat om binnen enkele minuten gegevens te verzamelen, deze in de cloud op te slaan en deze naar vele formaten te exporteren: Excel, CSV, HTML, JSON of via een API naar databases op de site.

Nadelen van gegevensextractie

  • Server crasht
    Bij het op grote schaal extraheren van gegevens kan de webserver van de doelsite overbelast raken, wat tot een servercrash kan leiden. Dit schaadt de belangen van de site-eigenaar.
  • Verbod op IP
    Wanneer een persoon te vaak gegevens verzamelt, kunnen websites hun IP-adres blokkeren. Een bron kan een IP-adres volledig verbieden of de toegang beperken door de gegevens onvolledig te maken. Om gegevens op te halen en blokkering te voorkomen, moet u dit met een gematigde snelheid doen en enkele antiblokkeringstechnieken toepassen.
  • Problemen met de wet
    Het extraheren van gegevens van internet valt in een grijs gebied als het gaat om legaliteit. Grote sites als Linkedin en Facebook stellen in hun gebruiksvoorwaarden duidelijk dat elke automatische extractie van gegevens verboden is. Er zijn veel rechtszaken geweest tussen bedrijven vanwege botactiviteiten.

Belangrijkste verschillen tussen datamining en data-extractie

  1. Datamining wordt ook wel kennisontdekking in databases, kennisextractie, data-/patroonanalyse, informatieverzameling genoemd. Gegevensextractie wordt door elkaar gebruikt met webgegevensextractie, scannen van webpagina's, gegevensverzameling, enzovoort.
  2. Dataminingonderzoek is meestal gebaseerd op gestructureerde gegevens, terwijl datamining meestal put uit ongestructureerde of slecht gestructureerde bronnen.
  3. Het doel van datamining is om gegevens bruikbaarder te maken voor analyse. Data-extractie is het verzamelen van gegevens op één plek waar deze kunnen worden opgeslagen of verwerkt.
  4. Analyse in datamining is gebaseerd op wiskundige methoden voor het identificeren van patronen of trends. Data-extractie is gebaseerd op programmeertalen of data-extractietools om bronnen te omzeilen.
  5. Het doel van datamining is het vinden van feiten die voorheen niet bekend of genegeerd waren, terwijl data-extractie betrekking heeft op bestaande informatie.
  6. Datamining is complexer en vereist een grote investering in het opleiden van mensen. Gegevensextractie met de juiste tool kan uiterst eenvoudig en kosteneffectief zijn.

Wij helpen beginners niet in de war te raken in Data. Speciaal voor habravchans hebben we een promotiecode gemaakt HABR, waarbij 10% extra korting wordt gegeven op de korting die op de banner staat vermeld.

Het verschil begrijpen tussen datamining en data-extractie

Meer cursussen

Aanbevolen artikelen

Bron: www.habr.com