Capisce a diffarenza trà Data Mining è Data Extraction

Capisce a diffarenza trà Data Mining è Data Extraction
Sti dui buzzwords di Data Science cunfondenu assai persone. Data Mining hè spessu malinterpretatu cum'è estrazione è ricuperazione di dati, ma a realità hè assai più cumplessa. In questu post, andemu à puntu Mining è scopre a diffarenza trà Data Mining è Data Extraction.

Cosa hè Data Mining?

Data mining, chjamatu ancu Scuperta di cunniscenza di basa di dati (KDD), hè una tecnica spessu usata per analizà e grande datasets utilizendu metudi statistichi è matematichi per truvà mudelli o tendenzi nascosti è estrae u valore da elli.

Chì pudete fà cù Data Mining?

Per automatizà u prucessu, Strumenti di data mining pò navigà in basa di dati è scopre in modu efficace mudelli nascosti. Per l'imprese, l'estrazione di dati hè spessu usata per scopre mudelli è relazioni in dati per aiutà à fà megliu decisioni cummerciale.

Esempi di applicazione

Dopu chì a data mining hè diventata generalizata in l'anni 1990, e cumpagnie in una larga gamma di industrii, cumpresi retail, finance, healthcare, transports, telecommunications, e-commerce, etc., cuminciaru à utilizà i metudi di data mining per ottene infurmazioni nantu à basa di dati. L'estrazione di dati pò aiutà à segmentà i clienti, identificà fraude, predichendu e vendite, è più.

  • Segmentazione di i clienti
    Analizendu i dati di i clienti è identificendu e caratteristiche di i clienti di destinazione, l'imprese ponu indirizzà in un gruppu distintu è furnisce offerte speciali chì rispondenu à i so bisogni.
  • Analisi di a cesta di u mercatu
    Sta tecnica hè basatu nantu à a tiurìa chì si cumprà un certu gruppu di prudutti, hè più prubabile di cumprà un gruppu di prudutti diffirenti. Un esempiu famosu: quandu i babbi compranu diapers per i so zitelli, tendenu à cumprà a biera cù i diapers.
  • Previsione di vendita
    Pò esse simili à l'analisi di a cesta di u mercatu, ma sta volta l'analisi di dati hè utilizata per predichendu quandu un cliente cumprà un pruduttu novu in u futuru. Per esempiu, un coach compra una latta di proteina chì deve durà per 9 mesi. A tenda chì vende sta proteina pensa à liberà una nova in 9 mesi in modu chì u coach hà da cumprà novu.
  • Rilevazione di frode
    L'estrazione di dati aiuta à custruisce mudelli per detectà fraud. Raccogliendu campioni di rapporti fraudulenti è veri, l'imprese sò capaci di determinà quali transazzioni sò sospetti.
  • Rilevazione di mudelli in a produzzione
    In l'industria di fabricazione, l'estrazione di dati hè aduprata per aiutà i sistemi di cuncepimentu identificendu a relazione trà l'architettura di u produttu, u prufilu è i bisogni di i clienti. A data mining pò ancu predichendu i tempi è i costi di u sviluppu di u produttu.

È questi sò solu uni pochi di casi d'usu per a minazione di dati.

Fasi di mining di dati

L'estrazione di dati hè un prucessu olisticu di cullizzioni, selezzione, pulizia, trasfurmazioni è estrazione di dati per evaluà i mudelli è, in fine, estrae u valore.

Capisce a diffarenza trà Data Mining è Data Extraction

In generale, tuttu u prucessu di data mining pò esse riassuntu in 7 passi:

  1. Pulizia di dati
    In u mondu reale, i dati ùn sò micca sempre puliti è strutturati. Sò spessu rumorosi, incompleti, è ponu cuntene errori. Per assicurà chì u risultatu di a minera di dati hè precisu, prima avete bisognu di pulizziari i dati. Certi metudi di pulizia includenu riempimentu di i valori mancanti, cuntrolli automatichi è manuali, etc.
  2. Integrazione di dati
    Questu hè u stadiu induve e dati da diverse fonti sò estratti, cumminati è integrati. I fonti ponu esse basa di dati, schedarii di testu, spreadsheets, documenti, datasets multidimensionali, Internet, etc.
  3. Sampling di dati
    Di solitu, micca tutti i dati integrati sò necessarii in data mining. U campionamentu di dati hè u stadiu in quale solu dati utili sò selezziunati è estratti da una grande basa di dati.
  4. Cunversione di dati
    Una volta i dati sò selezziunati, sò cunvertiti in forme adattate per a minera. Stu prucessu include nurmalizazione, aggregazione, generalizazione, etc.
  5. Data mining
    Quì vene a parte più impurtante di data mining - cù metudi intelligenti per truvà mudelli in elli. U prucessu include regressione, classificazione, predizione, clustering, apprendimentu d'associazione, è più.
  6. Valutazione di mudellu
    Stu passu hà da scopu di identificà mudelli potenzialmente utili, facili da capisce, è ancu mudelli chì sustenenu l'ipotesi.
  7. Rappresentazione di a cunniscenza
    In a tappa finale, l'infurmazione ottenuta hè presentata in una manera attrattiva cù i metudi di rapprisintazioni di cunniscenza è di visualizazione.

Disvantages di Data Mining

  • Grande investimentu di tempu è travagliu
    Siccomu l'estrazione di dati hè un prucessu longu è cumplessu, esige assai travagliu da e persone pruduttive è qualificate. I scientisti di dati ponu utilizà strumenti putenti di data mining, ma anu bisognu di esperti per preparà e dati è capiscenu i risultati. In u risultatu, pò piglià un pocu di tempu per processà tutte l'infurmazioni.
  • A privacy è a sicurità di e dati
    Perchè a data mining raccoglie l'infurmazioni di i clienti attraversu i metudi di u mercatu, pò violà a privacy di l'utilizatori. Inoltre, i pirate ponu uttene dati almacenati in sistemi di data mining. Questu pone una minaccia per a sicurità di i dati di i clienti. Se i dati arrubati sò misused, ponu facilmente dannà l'altri.

U sopra hè una breve introduzione à a data mining. Cumu l'aghju dettu, a minazione di dati implica u prucessu di cullizzioni è integrazione di dati, chì include u prucessu di estrazione di dati. In questu casu, hè sicuru di dì chì l'estrazione di dati pò esse parti di un prucessu di data mining à longu andà.

Cosa hè l'estrazione di dati?

Cunnisciuta ancu com'è "web data mining" è "web scraping", stu prucessu hè l'attu di estrazione di dati da fonti di dati (di solitu micca strutturati o pocu strutturati) in lochi centralizati è centralizendu in un locu per u almacenamentu o un ulteriore prucessu. In particulare, fonti di dati micca strutturati include pagine web, email, documenti, fugliali PDF, testu scansatu, rapporti mainframe, fugliali reel-to-reel, publicità, etc. L'almacenamiento centralizatu pò esse lucale, nuvola o hibridu. Hè impurtante di ricurdà chì l'estrazione di dati ùn include micca u processu o altre analisi chì ponu accade dopu.

Chì pò esse fattu cù l'estrazione di dati?

In fondu, i scopi di estrazione di dati sò in 3 categurie.

  • Archiviu
    L'estrazione di dati pò cunvertisce e dati da formati fisici cum'è libri, ghjurnali, fatture in formati digitali, cum'è basa di dati per u almacenamentu o copia di salvezza.
  • Cambia u furmatu di dati
    Quandu vulete migrà e dati da u vostru situ attuale à un novu in sviluppu, pudete cullà e dati da u vostru propiu situ estratendu.
  • Analisi di dati
    Hè cumunu per analizà ulteriormente i dati estratti per acquistà insight in questu. Stu pò sona simile à data mining, ma tenite in mente chì data mining hè u scopu di data mining, micca parti di lu. Inoltre, i dati sò analizati in modu diversu. Un esempiu hè chì i pruprietarii di e magazzini in linea tiranu l'infurmazioni di u produttu da i siti di e-commerce cum'è Amazon per monitorà e strategie di i cuncurrenti in tempu reale. Cum'è l'estrazione di dati, l'estrazione di dati hè un prucessu automatizatu cù assai benefici. In u passatu, a ghjente hà copiatu è incollatu dati manualmente da un locu à l'altru, chì era assai tempu. L'estrazione di dati accelera a cullizzioni è migliurà assai l'accuratezza di e dati estratti.

Alcuni esempi di usu di l'estrazione di dati

Simile a data mining, data mining hè largamente utilizatu in diverse industrii. In più di u monitoraghju di u prezzu di e-commerce, a minazione di dati pò aiutà cù a vostra propria ricerca, aggregazione di nutizie, marketing, immubiliare, viaghji è turismu, cunsulenza, finanza, è più.

  • Generazione di piombu
    L'imprese ponu estratti dati da i cartulari: Yelp, Crunchbase, Yellowpages è generà leads per u sviluppu cummerciale. Pudete vede u video sottu à amparà à caccià dati da Yellowpages cù mudellu di scraping web.

  • Agregazione di cuntenutu è nutizie
    I siti web di aggregazione di cuntenutu ponu riceve un feed di dati regulare da parechje fonti è mantene i so siti aghjurnati.
  • Analisi di sentimenti
    Dopu avè estratto recensioni, cumenti è tistimunianzi da e rete soziale cum'è Instagram è Twitter, i prufessiunali ponu analizà l'attitudini sottostanti è acquistà insights in cumu si percepisce una marca, un pruduttu o un fenomenu.

Passi di estrazione di dati

L'estrazione di dati hè a prima tappa di ETL (Extract, Transform, Load: Extract, Transform, Load) è ELT (Extract, Load, and Transform). ETL è ELT sò stessi parte di una strategia cumpleta di integrazione di dati. In altri palori, l'estrazione di dati pò esse parti di a so estrazione.

Capisce a diffarenza trà Data Mining è Data Extraction
Estratti, cunvertisce, carica

Mentre a data mining hè tutta di estrazione d'infurmazioni da grande quantità di dati, l'estrazione di dati hè un prucessu assai più curtu è simplice. Pò esse ridutta à trè fasi:

  1. Selezzione di una fonte di dati
    Selezziunate a fonte da quale vulete caccià e dati, cum'è un situ web.
  2. Raccolta di dati
    Mandate una dumanda "GET" à u situ è ​​analizà u documentu HTML resultanti utilizendu linguaggi di prugrammazione cum'è Python, PHP, R, Ruby, etc.
  3. Storage di dati
    Salvà e dati in a vostra basa di dati lucale o almacenamentu in nuvola per un usu futuru. Sè vo site un programatore spirienza chì vole à caccià dati, i passi sopra vi pò parè sèmplice. Tuttavia, s'è vo ùn codice, una scurciatoia hè à aduprà strumenti di estrazzioni dati, p.e. Octoparse. Strumenti di estrazione di dati, cum'è l'arnesi di mining di dati, sò pensati per risparmià energia è fà u processu di dati faciule per tutti. Questi strumenti ùn sò micca solu ecunomichi, ma ancu per principianti. Permettenu à l'utilizatori di cullà e dati in pochi minuti, l'almacenà in u nuvulu, è l'esportanu in parechji formati: Excel, CSV, HTML, JSON, o à basa di dati in u situ via una API.

Svantaghji di l'estrazione di dati

  • Crash di u servitore
    Quandu l'estrazione di dati in una grande scala, u servitore web di u situ di destinazione pò esse sovraccaricatu, chì pò purtà à un crash di u servitore. Questu ferà l'interessi di u pruprietariu di u situ.
  • Bantu per IP
    Quandu una persona raccoglie dati troppu spessu, i siti web ponu bluccà u so indirizzu IP. Una risorsa pò pruibisce completamente un indirizzu IP o restringe l'accessu rendendu i dati incompleti. Per ritruvà dati è evità u bloccu, avete bisognu di fà à una velocità moderata è applicà alcune tecniche anti-blocking.
  • Prublemi cù a lege
    L'estrazione di dati da u web cade in una zona grisa quandu si tratta di legalità. I siti maiò cum'è Linkedin è Facebook dichjaranu chjaramente in i so termini di usu chì ogni estrazione automatica di dati hè pruibita. Ci sò stati assai prucessi trà cumpagnie per l'attività di bot.

Differenze chjave trà Data Mining è Data Extraction

  1. L'estrazione di dati hè ancu chjamata scuperta di cunniscenza in basa di dati, estrazione di cunniscenza, analisi di dati / mudelli, raccolta di informazioni. L'estrazione di dati hè usata in modu intercambiable cù l'estrazione di dati web, scanning di pagine web, cullizzioni di dati, etc.
  2. A ricerca di data mining hè principalmente basata nantu à dati strutturati mentre chì l'estrazione di dati generalmente si basa da fonti non strutturate o pocu strutturate.
  3. U scopu di data mining hè di fà e dati più utili per l'analisi. L'estrazione di dati hè a cullizzioni di dati in un locu induve pò esse almacenatu o trattatu.
  4. L'analisi in a data mining hè basatu nantu à metudi matematichi per identificà mudelli o tendenzi. L'estrazione di dati hè basatu annantu à lingue di prugrammazione o strumenti di estrazione di dati per aggira e fonti.
  5. U scopu di a data mining hè di truvà fatti chì ùn eranu micca cunnisciuti o ignorati, mentre chì l'estrazione di dati si tratta di l'infurmazioni esistenti.
  6. A data mining hè più cumplessa è esige un grande investimentu in a furmazione di e persone. L'estrazione di dati cù u strumentu ghjustu pò esse estremamente faciule è costu-efficace.

Aiutemu i principianti micca cunfunditi in Dati. In particulare per i habravchans, avemu fattu un codice promozionale HABR, dendu un scontu supplementu di 10% à u scontu indicatu nantu à u banner.

Capisce a diffarenza trà Data Mining è Data Extraction

Più corsi

Articuli presentati

Source: www.habr.com