Data Mining və Data Extraction arasındakı fərqi başa düşmək

Data Mining və Data Extraction arasındakı fərqi başa düşmək
Məlumat elminin bu iki sözü bir çox insanı çaşdırır. Data Mining tez-tez məlumatların çıxarılması və əldə edilməsi kimi səhv başa düşülür, lakin əslində bu, daha mürəkkəbdir. Bu yazıda gəlin Mining-ə son toxunuşları edək və Data Mining və Data Extraction arasındakı fərqi öyrənək.

Data Mining nədir?

Data mining də deyilir Verilənlər Bazasında Bilik Kəşfi (KDD), gizli nümunələri və ya tendensiyaları tapmaq və onlardan dəyər çıxarmaq üçün statistik və riyazi üsullardan istifadə edərək böyük məlumat dəstlərini təhlil etmək üçün tez-tez istifadə olunan bir texnikadır.

Data Mining ilə nə edə bilərsiniz?

Prosesi avtomatlaşdıraraq, data mining alətləri verilənlər bazalarını nəzərdən keçirə və gizli nümunələri effektiv şəkildə aça bilər. Müəssisələr üçün daha yaxşı biznes qərarları qəbul etməyə kömək etmək üçün verilənlərdə nümunələri və əlaqələri aşkar etmək üçün verilənlərin əldə edilməsi tez-tez istifadə olunur.

Tətbiq nümunələri

1990-cı illərdə data mining geniş yayıldıqdan sonra, pərakəndə satış, maliyyə, səhiyyə, nəqliyyat, telekommunikasiya, e-ticarət və s. daxil olmaqla geniş sənaye sahələrində şirkətlər verilənlər əsasında məlumat əldə etmək üçün data mining üsullarından istifadə etməyə başladılar. Data mining müştəriləri seqmentləşdirməyə, saxtakarlığı aşkar etməyə, satışları proqnozlaşdırmağa və daha çox şeyə kömək edə bilər.

  • Müştəri seqmentasiyası
    Müştəri məlumatlarını təhlil edərək və hədəf müştərilərin xüsusiyyətlərini müəyyən edərək, şirkətlər onları ayrı bir qrupa hədəfləyə və ehtiyaclarına cavab verən xüsusi təkliflər təqdim edə bilər.
  • Bazar Səbətinin Təhlili
    Bu texnika müəyyən bir qrup məhsul alsanız, başqa bir məhsul qrupunu alma ehtimalınız yüksək olduğu nəzəriyyəsinə əsaslanır. Məşhur bir misal: atalar körpələri üçün uşaq bezləri aldıqda, uşaq bezləri ilə birlikdə pivə almağa meyllidirlər.
  • Satışların proqnozlaşdırılması
    Bu, bazar səbətinin təhlilinə bənzəyir, lakin bu dəfə məlumat təhlili müştərinin gələcəkdə məhsulu yenidən nə vaxt alacağını proqnozlaşdırmaq üçün istifadə olunur. Məsələn, bir məşqçi 9 ay davam etməli olan bir qutu protein alır. Bu proteini satan mağaza 9 ay ərzində yenisini buraxmağı planlaşdırır ki, məşqçi onu yenidən alsın.
  • Fırıldaqçılığın aşkarlanması
    Data mining fırıldaqçılığı aşkar etmək üçün modellər qurmağa kömək edir. Saxta və qanuni hesabatların nümunələrini toplamaqla bizneslərə hansı əməliyyatların şübhəli olduğunu müəyyən etmək səlahiyyəti verilir.
  • İstehsalda nümunənin aşkarlanması
    İstehsalat sənayesində məhsulun arxitekturası, profili və müştəri ehtiyacları arasındakı əlaqəni müəyyən edərək sistem dizaynına kömək etmək üçün məlumatların öyrənilməsi istifadə olunur. Data mining həmçinin məhsulun inkişaf müddətlərini və xərclərini proqnozlaşdıra bilər.

Və bunlar data mining üçün yalnız bir neçə istifadə hallarıdır.

Data mining mərhələləri

Data mining nümunələri qiymətləndirmək və nəticədə dəyər çıxarmaq üçün məlumatların toplanması, seçilməsi, təmizlənməsi, dəyişdirilməsi və çıxarılmasının vahid prosesidir.

Data Mining və Data Extraction arasındakı fərqi başa düşmək

Bir qayda olaraq, bütün data mining prosesini 7 mərhələyə ümumiləşdirmək olar:

  1. Məlumatların təmizlənməsi
    Real dünyada məlumatlar həmişə təmizlənmir və strukturlaşdırılmır. Onlar tez-tez səs-küylü, natamamdır və səhvlər ola bilər. Data mining nəticəsinin dəqiq olmasını təmin etmək üçün əvvəlcə məlumatları təmizləməlisiniz. Bəzi təmizləmə üsullarına çatışmayan dəyərlərin doldurulması, avtomatik və əllə yoxlama və s. daxildir.
  2. Məlumat inteqrasiyası
    Bu, müxtəlif mənbələrdən məlumatların çıxarıldığı, birləşdirildiyi və inteqrasiya edildiyi mərhələdir. Mənbələr verilənlər bazası, mətn faylları, elektron cədvəllər, sənədlər, çoxölçülü verilənlər topluları, İnternet və s. ola bilər.
  3. Məlumatların seçilməsi
    Tipik olaraq, data mining-də bütün inteqrasiya edilmiş məlumatlar tələb olunmur. Məlumatların seçilməsi, böyük verilənlər bazasından yalnız faydalı məlumatların seçildiyi və çıxarıldığı mərhələdir.
  4. Məlumatların çevrilməsi
    Məlumat seçildikdən sonra mədən üçün uyğun formalara çevrilir. Bu prosesə normallaşma, toplama, ümumiləşdirmə və s.
  5. Data Mining
    Burada verilənlərin əldə edilməsinin ən vacib hissəsi gəlir - onlarda nümunələri tapmaq üçün ağıllı metodlardan istifadə. Prosesə reqressiya, təsnifat, proqnozlaşdırma, qruplaşma, assosiasiya öyrənmə və s.
  6. Modelin qiymətləndirilməsi
    Bu addım potensial faydalı, asan başa düşülən nümunələri, eləcə də hipotezləri dəstəkləyən nümunələri müəyyən etmək məqsədi daşıyır.
  7. Bilik təmsili
    Yekun mərhələdə biliklərin təqdim edilməsi və vizuallaşdırma üsullarından istifadə etməklə əldə edilən məlumatlar cəlbedici şəkildə təqdim olunur.

Data Mining-in çatışmazlıqları

  • Böyük vaxt və əmək sərmayəsi
    Data mining uzun və mürəkkəb bir proses olduğundan, məhsuldar və bacarıqlı insanlardan çox iş tələb edir. Data madencileri güclü data mining alətlərindən istifadə edə bilərlər, lakin onlar mütəxəssislərdən məlumatları hazırlamaq və nəticələri anlamaq tələb edirlər. Nəticədə, bütün məlumatları emal etmək bir qədər vaxt apara bilər.
  • Məxfilik və məlumat təhlükəsizliyi
    Data mining bazar metodları vasitəsilə müştəri məlumatlarını topladığı üçün istifadəçi məxfiliyini poza bilər. Bundan əlavə, hakerlər data mining sistemlərində saxlanılan məlumatları əldə edə bilərlər. Bu, müştəri məlumatlarının təhlükəsizliyinə təhlükə yaradır. Oğurlanmış məlumatlar sui-istifadə edilərsə, başqalarına asanlıqla zərər verə bilər.

Yuxarıdakı məlumatlar verilənlərin istehsalına qısa girişdir. Artıq qeyd etdiyim kimi, data mining məlumatların çıxarılması prosesini (məlumatların çıxarılması) ehtiva edən məlumatların toplanması və inteqrasiyası prosesini ehtiva edir. Bu halda, məlumatların çıxarılmasının uzun bir məlumat əldə etmə prosesinin bir hissəsi ola biləcəyini söyləmək təhlükəsizdir.

Məlumatların çıxarılması nədir?

“Veb məlumatların çıxarılması” və “veb kazıması” kimi də tanınan bu proses məlumatların (adətən strukturlaşdırılmamış və ya zəif strukturlaşdırılmış) məlumat mənbələrindən mərkəzləşdirilmiş yerlərə çıxarılması və saxlanması və ya sonrakı emal üçün bir yerdə mərkəzləşdirilməsi aktıdır. Konkret olaraq, strukturlaşdırılmamış məlumat mənbələrinə veb-səhifələr, e-poçt, sənədlər, PDF faylları, skan edilmiş mətn, meynframe hesabatları, çarxdan makaralı fayllar, reklamlar və s. daxildir. Mərkəzləşdirilmiş saxlama yerli, bulud və ya hibrid ola bilər. Məlumatların çıxarılmasına emal və ya sonradan baş verə biləcək digər təhlillərin daxil olmadığını xatırlamaq vacibdir.

Data Extraction ilə nə etmək olar?

Əsasən, məlumatların çıxarılması məqsədləri 3 kateqoriyaya bölünür.

  • Arxivləşdirmə
    Məlumatların çıxarılması fiziki formatlardan məlumatları çevirə bilər: kitablar, qəzetlər, fakturaları rəqəmsal formatlara, məsələn, saxlama və ya ehtiyat nüsxə üçün verilənlər bazası.
  • Məlumat formatının dəyişdirilməsi
    Məlumatları hazırkı saytınızdan hazırlanmaqda olan yenisinə köçürmək istədiyiniz zaman, onu çıxararaq öz saytınızdan məlumat toplaya bilərsiniz.
  • Məlumatların təhlili
    Çıxarılan məlumatları daha dərindən təhlil etmək adi haldır. Bu data mining kimi səslənə bilər, lakin yadda saxlayın ki, data mining onun bir hissəsi deyil, verilənlərin əldə edilməsinin məqsədidir. Üstəlik, məlumatlar fərqli şəkildə təhlil edilir. Bir nümunə, onlayn mağaza sahiblərinin real vaxt rejimində rəqib strategiyalarını izləmək üçün Amazon kimi e-ticarət saytlarından məhsul məlumatlarını götürməsidir. Məlumatların çıxarılması kimi, məlumatların çıxarılması da bir çox üstünlükləri olan avtomatlaşdırılmış bir prosesdir. Əvvəllər insanlar məlumatları əl ilə bir yerdən digərinə köçürür və yapışdırırdılar ki, bu da çox vaxt aparırdı. Məlumatların çıxarılması toplanmanı sürətləndirir və çıxarılan məlumatların dəqiqliyini əhəmiyyətli dərəcədə artırır.

Data Extraction istifadəsinə bəzi nümunələr

Data mining kimi, data mining müxtəlif sənaye sahələrində geniş istifadə olunur. Elektron ticarətdə qiymətlərin monitorinqi ilə yanaşı, data mining öz araşdırmalarınızda, xəbərlərin toplanması, marketinq, daşınmaz əmlak, səyahət və turizm, konsaltinq, maliyyə və s. işlərdə kömək edə bilər.

  • Aparıcı nəsil
    Şirkətlər qovluqlardan məlumatları çıxara bilər: Yelp, Crunchbase, Yellowpages və biznesin inkişafı üçün potensial yarada bilər. Yellowpages-dən istifadə edərək məlumat çıxarmağı öyrənmək üçün aşağıdakı videoya baxa bilərsiniz veb kazıma şablonu.

  • Məzmun və xəbərlərin toplanması
    Məzmunu birləşdirən veb saytlar bir çox mənbədən müntəzəm məlumat lentləri qəbul edə və saytlarını yeni saxlaya bilər.
  • Hiss Təhlili
    İnstaqram və Twitter kimi sosial media saytlarından rəylər, şərhlər və rəylər əldə etməklə ekspertlər əsas hissləri təhlil edə və brendin, məhsulun və ya fenomenin necə qəbul edildiyi barədə fikir əldə edə bilərlər.

Məlumatların çıxarılması addımları

Məlumatların çıxarılması ETL (Extract, Transform, Load abbreviaturası) və ELT (çıxarma, yükləmə və çevirmə) proqramlarının birinci mərhələsidir. ETL və ELT özləri tam məlumat inteqrasiyası strategiyasının bir hissəsidir. Başqa sözlə, məlumatların çıxarılması data mining-in bir hissəsi ola bilər.

Data Mining və Data Extraction arasındakı fərqi başa düşmək
Çıxarmaq, çevirmək, yükləmək

Data mining böyük həcmdə məlumatlardan məlumat çıxarmaqla bağlı olsa da, məlumatların çıxarılması daha qısa və sadə bir prosesdir. Üç mərhələyə endirilə bilər:

  1. Məlumat mənbəyinin seçilməsi
    Veb sayt kimi məlumat çıxarmaq istədiyiniz mənbəni seçin.
  2. Məlumatların toplanması
    Sayta "GET" sorğusu göndərin və əldə edilən HTML sənədini Python, PHP, R, Ruby və s. kimi proqramlaşdırma dillərindən istifadə edərək təhlil edin.
  3. Məlumat saxlama
    Gələcək istifadə üçün məlumatları yerli verilənlər bazanıza və ya bulud yaddaşınıza saxlayın. Əgər siz məlumat çıxarmaq istəyən təcrübəli proqramçısınızsa, yuxarıdakı addımlar sizə sadə görünə bilər. Bununla belə, bir proqramçı deyilsinizsə, bir qısa yol var - kimi data mining alətlərindən istifadə edin Octoparse. Məlumat çıxarma vasitələri, məlumatların çıxarılması alətləri kimi enerjiyə qənaət etmək və məlumatların işlənməsini hamı üçün asanlaşdırmaq üçün nəzərdə tutulub. Bu alətlər təkcə iqtisadi deyil, həm də yeni başlayanlar üçün əlverişlidir. Onlar istifadəçilərə bir neçə dəqiqə ərzində məlumatları toplamağa, buludda saxlamağa və bir çox formata ixrac etməyə imkan verir: Excel, CSV, HTML, JSON və ya API vasitəsilə veb sayt verilənlər bazalarına.

Məlumatların çıxarılmasının çatışmazlıqları

  • Server qəzası
    Böyük miqyasda məlumat əldə edərkən, hədəf saytın veb serveri həddindən artıq yüklənə bilər ki, bu da serverin çökməsinə səbəb ola bilər. Bu, sayt sahibinin maraqlarına zərər verəcəkdir.
  • IP tərəfindən qadağan
    Bir şəxs çox tez-tez məlumat toplayanda, veb-saytlar onların IP ünvanını bloklaya bilər. Resurs məlumatı natamam etməklə IP ünvanını tamamilə qadağan edə və ya girişi məhdudlaşdıra bilər. Məlumatları əldə etmək və bloklanmamaq üçün bunu orta sürətlə etməli və bəzi bloklanmaya qarşı üsulları tətbiq etməlisiniz.
  • Hüquq problemləri
    İnternetdən məlumatların çıxarılması qanuniliyə gəldikdə boz sahəyə düşür. Linkedin və Facebook kimi böyük saytlar istifadə şərtlərində məlumatların avtomatik çıxarılmasının qadağan olunduğunu açıq şəkildə bildirirlər. Bot fəaliyyətlərinə görə şirkətlər arasında çoxlu məhkəmə çəkişmələri olub.

Məlumatların çıxarılması və məlumatların çıxarılması arasındakı əsas fərqlər

  1. Data mining həmçinin verilənlər bazalarında bilik kəşfi, biliklərin çıxarılması, məlumatların/nümunələrin təhlili, məlumat toplama adlanır. Məlumatların çıxarılması veb məlumatların çıxarılması, veb taraması, məlumatların çıxarılması və s. ilə əvəzedici şəkildə istifadə olunur.
  2. Data mining tədqiqatı əsasən strukturlaşdırılmış məlumatlara əsaslanır, halbuki data mining zamanı adətən strukturlaşdırılmamış və ya zəif strukturlaşdırılmış mənbələrdən çıxarılır.
  3. Data mining-in məqsədi məlumatları təhlil üçün daha faydalı etməkdir. Məlumatların çıxarılması məlumatların saxlanıla və ya emal oluna biləcəyi bir yerə toplanmasıdır.
  4. Data mining-də təhlil nümunələri və ya meylləri müəyyən etmək üçün riyazi metodlara əsaslanır. Məlumatların çıxarılması proqramlaşdırma dillərinə və ya mənbələrdən yan keçmək üçün məlumat çıxarma vasitələrinə əsaslanır.
  5. Məlumatların çıxarılmasının məqsədi əvvəllər məlum olmayan və ya nəzərə alınmayan faktları tapmaqdır, məlumatların çıxarılması isə mövcud məlumatlarla məşğul olur.
  6. Data mining daha mürəkkəbdir və insanların təliminə böyük sərmayə tələb edir. Doğru alətlə məlumatların çıxarılması olduqca asan və sərfəli ola bilər.

Biz yeni başlayanlara Datada çaşqınlıq yaratmamağa kömək edirik. Xüsusilə Khabra sakinləri üçün promosyon kodu yaratdıq HABR, bannerdə göstərilən endirimə əlavə 10% endirim vermək.

Data Mining və Data Extraction arasındakı fərqi başa düşmək

Daha çox kurslar

Tövsiyə olunan məqalələr

Mənbə: www.habr.com