Izpratne par atŔķirību starp datu ieguvi un datu ieguvi

Izpratne par atŔķirību starp datu ieguvi un datu ieguvi
Å ie divi datu zinātnes modes vārdi mulsina daudzus cilvēkus. Datu ieguve bieži tiek pārprasta kā datu ieguve un izguve, taču realitāte ir daudz sarežģītāka. Å ajā rakstā apskatÄ«sim Mining un noskaidrosim atŔķirÄ«bu starp datu ieguvi un datu ieguvi.

Kas ir datu ieguve?

Datu ieguve, saukta arÄ« Datu bāzes zināŔanu atklāŔana (KDD), ir metode, ko bieži izmanto lielu datu kopu analÄ«zei, izmantojot statistikas un matemātiskās metodes, lai atrastu slēptos modeļus vai tendences un iegÅ«tu no tām vērtÄ«bu.

Ko var darīt ar datu ieguvi?

Automatizējot procesu, datu ieguves rīki var pārlūkot datu bāzes un efektīvi atklāt slēptos modeļus. Uzņēmumiem datu ieguve bieži tiek izmantota, lai atklātu modeļus un attiecības datos, lai palīdzētu pieņemt labākus biznesa lēmumus.

Lietojumprogrammu piemēri

Pēc tam, kad 1990. gados kļuva plaÅ”i izplatÄ«ta datu ieguve, uzņēmumi dažādās nozarēs, tostarp mazumtirdzniecÄ«bā, finansēs, veselÄ«bas aprÅ«pē, transportā, telekomunikācijās, e-komercijā utt., sāka izmantot datu ieguves metodes, lai iegÅ«tu informāciju no datu bāzes. Datu ieguve var palÄ«dzēt segmentēt klientus, identificēt krāpÅ”anu, prognozēt pārdoÅ”anas apjomu un daudz ko citu.

  • Klientu segmentācija
    Analizējot klientu datus un identificējot mērÄ·a klientu iezÄ«mes, uzņēmumi var grupēt tos atseviŔķā grupā un sniegt Ä«paÅ”us piedāvājumus, kas atbilst viņu vajadzÄ«bām.
  • Tirgus groza analÄ«ze
    Šis paņēmiens ir balstīts uz teoriju, ka, pērkot noteiktu produktu grupu, jūs, visticamāk, iegādāsieties citu produktu grupu. Viens slavens piemērs: kad tēvi pērk autiņbiksītes saviem mazuļiem, viņi mēdz iegādāties alu kopā ar autiņbiksītēm.
  • PārdoÅ”anas prognozÄ“Å”ana
    Tas var Ŕķist lÄ«dzÄ«gs tirgus groza analÄ«zei, taču Å”oreiz datu analÄ«ze tiek izmantota, lai prognozētu, kad klients nākotnē atkal iegādāsies preci. Piemēram, treneris nopērk proteÄ«na bundžu, kurai vajadzētu pietikt 9 mēneÅ”iem. Veikals, kas pārdod Å”o proteÄ«nu, plāno pēc 9 mēneÅ”iem izlaist jaunu, lai treneris to iegādātos vēlreiz.
  • KrāpÅ”anas atklāŔana
    Datu ieguve palÄ«dz veidot modeļus krāpÅ”anas atklāŔanai. Apkopojot krāpniecisku un patiesu ziņojumu paraugus, uzņēmumi var noteikt, kuri darÄ«jumi ir aizdomÄ«gi.
  • Modeļa noteikÅ”ana ražoÅ”anā
    RažoÅ”anas nozarē datu ieguve tiek izmantota, lai palÄ«dzētu izstrādāt sistēmas, identificējot attiecÄ«bas starp produkta arhitektÅ«ru, profilu un klientu vajadzÄ«bām. Datu ieguve var arÄ« paredzēt produktu izstrādes laiku un izmaksas.

Un Ŕie ir tikai daži izmantoŔanas gadījumi datu ieguvei.

Datu ieguves posmi

Datu ieguve ir holistisks datu vākÅ”anas, atlases, tÄ«rÄ«Å”anas, pārveidoÅ”anas un ieguves process, lai novērtētu modeļus un, visbeidzot, iegÅ«tu vērtÄ«bu.

Izpratne par atŔķirību starp datu ieguvi un datu ieguvi

Parasti visu datu ieguves procesu var apkopot 7 soļos:

  1. Datu tīrīŔana
    Reālajā pasaulē dati ne vienmēr tiek notÄ«rÄ«ti un strukturēti. Tie bieži ir trokŔņaini, nepilnÄ«gi un var saturēt kļūdas. Lai pārliecinātos, ka datu ieguves rezultāts ir precÄ«zs, vispirms ir jānotÄ«ra dati. Dažas tÄ«rÄ«Å”anas metodes ietver trÅ«kstoÅ”o vērtÄ«bu aizpildÄ«Å”anu, automātiskās un manuālās vadÄ«klas utt.
  2. Datu integrācija
    Šis ir posms, kurā dati no dažādiem avotiem tiek iegūti, apvienoti un integrēti. Avoti var būt datu bāzes, teksta faili, izklājlapas, dokumenti, daudzdimensionālas datu kopas, internets un tā tālāk.
  3. Datu izlase
    Parasti datu ieguvei nav nepiecieÅ”ami visi integrētie dati. Datu paraugu ņemÅ”ana ir posms, kurā no lielas datu bāzes tiek atlasÄ«ti un iegÅ«ti tikai noderÄ«gi dati.
  4. Datu konvertēŔana
    Kad dati ir atlasÄ«ti, tie tiek pārvērsti ieguvei piemērotās formās. Å is process ietver normalizāciju, apkopoÅ”anu, vispārināŔanu utt.
  5. Datu ieguve
    Å eit nāk vissvarÄ«gākā datu ieguves daļa - viedo metožu izmantoÅ”ana, lai tajās atrastu modeļus. Process ietver regresiju, klasifikāciju, prognozÄ“Å”anu, klasterizāciju, asociāciju mācÄ«Å”anos un daudz ko citu.
  6. Modeļa novērtÄ“Å”ana
    Šī soļa mērķis ir identificēt potenciāli noderīgus, viegli saprotamus modeļus, kā arī modeļus, kas atbalsta hipotēzes.
  7. ZināŔanu reprezentācija
    Noslēguma posmā iegÅ«tā informācija tiek pasniegta atraktÄ«vā veidā, izmantojot zināŔanu reprezentācijas un vizualizācijas metodes.

Datu ieguves trūkumi

  • Liels laika un darba ieguldÄ«jums
    Tā kā datu ieguve ir ilgs un sarežģīts process, tas prasa daudz darba no produktÄ«viem un prasmÄ«giem cilvēkiem. Datu zinātnieki var izmantot jaudÄ«gus datu ieguves rÄ«kus, taču viņiem ir nepiecieÅ”ami eksperti, lai sagatavotu datus un izprastu rezultātus. Tā rezultātā visas informācijas apstrāde var aizņemt kādu laiku.
  • Datu privātums un droŔība
    Tā kā datu ieguve apkopo klientu informāciju, izmantojot tirgus metodes, tā var pārkāpt lietotāju privātumu. Turklāt hakeri var iegÅ«t datus, kas tiek glabāti datu ieguves sistēmās. Tas apdraud klientu datu droŔību. Ja nozagtie dati tiek ļaunprātÄ«gi izmantoti, tie var viegli kaitēt citiem.

IepriekÅ” minētais ir Ä«ss ievads datu ieguvei. Kā jau minēju, datu ieguve ietver datu vākÅ”anas un integrÄ“Å”anas procesu, kas ietver datu ieguves (datu ieguves) procesu. Å ajā gadÄ«jumā var droÅ”i teikt, ka datu ieguve var bÅ«t daļa no ilgstoÅ”a datu ieguves procesa.

Kas ir datu ieguve?

Å is process, kas pazÄ«stams arÄ« kā "tÄ«mekļa datu ieguve" un "tÄ«mekļa skrāpÄ“Å”ana", ir datu iegÅ«Å”ana no (parasti nestrukturētiem vai slikti strukturētiem) datu avotiem centralizētās vietās un centralizācija vienā vietā glabāŔanai vai turpmākai apstrādei. Konkrēti, nestrukturēti datu avoti ietver tÄ«mekļa lapas, e-pastu, dokumentus, PDF failus, skenētu tekstu, lieldatora atskaites, ruļļa failus, paziņojumus un tā tālāk. Centralizētā krātuve var bÅ«t lokāla, mākoņa vai hibrÄ«da. Ir svarÄ«gi atcerēties, ka datu ieguve neietver apstrādi vai citu analÄ«zi, kas var notikt vēlāk.

Ko var izdarīt ar datu ieguvi?

Pamatā datu ieguves mērķi iedalās 3 kategorijās.

  • ArhivÄ“Å”ana
    Datu ieguve var pārvērst datus no fiziskiem formātiem, piemēram, grāmatām, avÄ«zēm, rēķiniem, digitālos formātos, piemēram, datu bāzēs uzglabāŔanai vai dublÄ“Å”anai.
  • Datu formāta maiņa
    Ja vēlaties migrēt datus no savas paÅ”reizējās vietnes uz jaunu, kas tiek izstrādāta, varat apkopot datus no savas vietnes, tos izvelkot.
  • Datu analÄ«ze
    Ierasts tālāk analizēt iegÅ«tos datus, lai gÅ«tu ieskatu tajos. Tas var izklausÄ«ties lÄ«dzÄ«gi kā datu ieguve, taču ņemiet vērā, ka datu ieguve ir datu ieguves mērÄ·is, nevis tā daļa. Turklāt dati tiek analizēti atŔķirÄ«gi. Viens piemērs ir tas, ka tieÅ”saistes veikalu Ä«paÅ”nieki iegÅ«st informāciju par produktu no e-komercijas vietnēm, piemēram, Amazon, lai reāllaikā pārraudzÄ«tu konkurentu stratēģijas. Tāpat kā datu ieguve, arÄ« datu ieguve ir automatizēts process ar daudzām priekÅ”rocÄ«bām. Agrāk cilvēki manuāli kopēja un ielÄ«mēja datus no vienas vietas uz citu, kas bija ļoti laikietilpÄ«gi. Datu ieguve paātrina savākÅ”anu un ievērojami uzlabo iegÅ«to datu precizitāti.

Daži datu ieguves izmantoÅ”anas piemēri

LÄ«dzÄ«gi kā datu ieguve, arÄ« datu ieguve tiek plaÅ”i izmantota dažādās nozarēs. Papildus e-komercijas cenu uzraudzÄ«bai datu ieguve var palÄ«dzēt veikt pētÄ«jumus, ziņu apkopoÅ”anu, mārketingu, nekustamo Ä«paÅ”umu, ceļojumus un tÅ«rismu, konsultācijas, finanses un citus.

  • Svina paaudze
    Uzņēmumi var iegÅ«t datus no katalogiem: Yelp, Crunchbase, Yellowpages un Ä£enerēt potenciālos pirkumus biznesa attÄ«stÄ«bai. Varat noskatÄ«ties tālāk esoÅ”o videoklipu, lai uzzinātu, kā iegÅ«t datus no Yellowpages ar tÄ«mekļa nokasÄ«Å”anas veidne.

  • Satura un ziņu apkopoÅ”ana
    Satura apkopoÅ”anas vietnes var saņemt regulāras datu plÅ«smas no vairākiem avotiem un uzturēt savas vietnes atjauninātas.
  • Sentimenta analÄ«ze
    Pēc atsauksmju, komentāru un atsauksmju iegÅ«Å”anas no sociālajiem tÄ«kliem, piemēram, Instagram un Twitter, profesionāļi var analizēt pamatā esoÅ”o attieksmi un gÅ«t ieskatu par to, kā tiek uztverts zÄ«mols, produkts vai parādÄ«ba.

Datu ieguves soļi

Datu ieguve ir ETL (Extract, Transform, Load: Extract, Transform, Load) un ELT (Extract, Load un Transform) pirmais posms. ETL un ELT paÅ”i ir daļa no pilnÄ«gas datu integrācijas stratēģijas. Citiem vārdiem sakot, datu iegÅ«Å”ana var bÅ«t daļa no to ieguves.

Izpratne par atŔķirību starp datu ieguvi un datu ieguvi
Izvilkt, pārveidot, ielādēt

Lai gan datu ieguve ir saistīta ar informācijas ieguvi no liela datu apjoma, datu ieguve ir daudz īsāks un vienkārŔāks process. To var samazināt līdz trim posmiem:

  1. Datu avota atlase
    Atlasiet avotu, no kura vēlaties iegūt datus, piemēram, vietni.
  2. Datu vākŔana
    NosÅ«tiet vietnei pieprasÄ«jumu "GET" un parsējiet iegÅ«to HTML dokumentu, izmantojot programmÄ“Å”anas valodas, piemēram, Python, PHP, R, Ruby utt.
  3. Datu glabāŔana
    Saglabājiet datus vietējā datu bāzē vai mākoņkrātuvē turpmākai lietoÅ”anai. Ja esat pieredzējis programmētājs, kurÅ” vēlas iegÅ«t datus, iepriekÅ” minētās darbÄ«bas jums var Ŕķist vienkārÅ”as. Tomēr, ja neesat programmētājs, ir saÄ«sne - izmantojiet datu ieguves rÄ«kus, piemēram Astoņkājis. Datu ieguves rÄ«ki, tāpat kā datu ieguves rÄ«ki, ir paredzēti, lai taupÄ«tu enerÄ£iju un atvieglotu datu apstrādi ikvienam. Å ie rÄ«ki ir ne tikai ekonomiski, bet arÄ« draudzÄ«gi iesācējiem. Tie ļauj lietotājiem dažu minÅ«Å”u laikā apkopot datus, saglabāt tos mākonÄ« un eksportēt tos daudzos formātos: Excel, CSV, HTML, JSON vai vietnes datubāzēs, izmantojot API.

Datu ieguves trūkumi

  • Servera avārija
    IegÅ«stot datus lielā mērogā, mērÄ·a vietnes tÄ«mekļa serveris var tikt pārslogots, kas var izraisÄ«t servera avāriju. Tas kaitēs vietnes Ä«paÅ”nieka interesēm.
  • Aizliegts pēc IP
    Ja persona pārāk bieži vāc datus, vietnes var bloķēt viņu IP adresi. Resurss var pilnÄ«bā aizliegt IP adresi vai ierobežot piekļuvi, padarot datus nepilnÄ«gus. Lai izgÅ«tu datus un izvairÄ«tos no bloÄ·Ä“Å”anas, tas jādara mērenā ātrumā un jāizmanto daži pretbloÄ·Ä“Å”anas paņēmieni.
  • Problēmas ar likumu
    Datu iegÅ«Å”ana no tÄ«mekļa ir pelēkā zonā, kad runa ir par likumÄ«bu. Galvenās vietnes, piemēram, Linkedin un Facebook, savos lietoÅ”anas noteikumos skaidri norāda, ka jebkāda automātiska datu iegÅ«Å”ana ir aizliegta. Ir bijuÅ”as daudzas tiesas prāvas starp uzņēmumiem saistÄ«bā ar botu darbÄ«bām.

Galvenās atŔķirības starp datu ieguvi un datu ieguvi

  1. Datu ieguvi sauc arÄ« par zināŔanu atklāŔanu datu bāzēs, zināŔanu ieguvi, datu / modeļu analÄ«zi, informācijas vākÅ”anu. Datu ieguve tiek izmantota aizvietojami ar tÄ«mekļa datu ieguvi, tÄ«mekļa lapu skenÄ“Å”anu, datu vākÅ”anu un tā tālāk.
  2. Datu ieguves pētījumi galvenokārt balstās uz strukturētiem datiem, savukārt datu ieguve parasti tiek iegūta no nestrukturētiem vai slikti strukturētiem avotiem.
  3. Datu ieguves mērÄ·is ir padarÄ«t datus noderÄ«gākus analÄ«zei. Datu ieguve ir datu vākÅ”ana vienā vietā, kur tos var uzglabāt vai apstrādāt.
  4. Datu ieguves analÄ«ze balstās uz matemātiskām metodēm modeļu vai tendenču identificÄ“Å”anai. Datu ieguve ir balstÄ«ta uz programmÄ“Å”anas valodām vai datu ieguves rÄ«kiem, lai apietu avotus.
  5. Datu ieguves mērÄ·is ir atrast faktus, kas iepriekÅ” nebija zināmi vai ignorēti, savukārt datu ieguve nodarbojas ar esoÅ”o informāciju.
  6. Datu ieguve ir sarežģītāka un prasa lielus ieguldÄ«jumus cilvēku apmācÄ«bā. Datu ieguve ar pareizo rÄ«ku var bÅ«t ļoti vienkārÅ”a un rentabla.

Mēs palÄ«dzam iesācējiem neapjukt Datos. ÄŖpaÅ”i habravchaniem mēs izveidojām reklāmas kodu HABR, dodot papildus 10% atlaidi banerÄ« norādÄ«tajai atlaidei.

Izpratne par atŔķirību starp datu ieguvi un datu ieguvi

Vairāk kursu

Piedāvātie raksti

Avots: www.habr.com