Өгөгдөл олборлолт ба өгөгдөл олборлолт хоёрын ялгааг ойлгох

Өгөгдөл олборлолт ба өгөгдөл олборлолт хоёрын ялгааг ойлгох
Мэдээллийн шинжлэх ухааны эдгээр хоёр алдартай үгс нь олон хүнийг төөрөгдүүлдэг. Өгөгдлийн олборлолтыг ихэвчлэн өгөгдөл гаргаж авах, олж авах гэж буруу ойлгодог боловч бодит байдал нь илүү төвөгтэй байдаг. Энэ нийтлэлд Mining-ийг цэгцэлж, Data Mining болон Data Extraction хоёрын ялгааг олж мэдье.

Data Mining гэж юу вэ?

Өгөгдлийн олборлолтыг бас нэрлэдэг Өгөгдлийн сангийн мэдлэгийг илрүүлэх (KDD), нь далд хэв маяг, чиг хандлагыг олж, тэдгээрээс үнэ цэнийг гаргаж авахын тулд статистик болон математикийн аргуудыг ашиглан том өгөгдлийн багцад дүн шинжилгээ хийхэд ихэвчлэн ашиглагддаг арга юм.

Data Mining-ээр юу хийж болох вэ?

Үйл явцыг автоматжуулах замаар, өгөгдөл олборлох хэрэгслүүд мэдээллийн санг үзэж, далд хэв маягийг үр дүнтэй илрүүлэх боломжтой. Бизнесийн хувьд илүү сайн бизнесийн шийдвэр гаргахад туслах зорилгоор дата олборлолтыг ихэвчлэн өгөгдлийн хэв маяг, харилцааг олж илрүүлэхэд ашигладаг.

Програмын жишээ

1990-ээд онд дата олборлолт өргөн тархсаны дараа жижиглэн худалдаа, санхүү, эрүүл мэнд, зам тээвэр, харилцаа холбоо, цахим худалдаа гэх мэт өргөн хүрээний салбарын компаниуд өгөгдлийн үндсэн дээр мэдээлэл олж авахын тулд өгөгдөл олборлох аргыг ашиглаж эхэлсэн. Өгөгдлийн олборлолт нь хэрэглэгчдийг сегментчилэх, залилан мэхлэх, борлуулалтыг урьдчилан таамаглах гэх мэт олон зүйлийг хийхэд тусалдаг.

  • Хэрэглэгчийн сегментчилэл
    Хэрэглэгчийн мэдээлэлд дүн шинжилгээ хийж, зорилтот хэрэглэгчдийнхээ онцлогийг тодорхойлсноор компаниуд тэднийг тусдаа бүлэгт нэгтгэж, тэдний хэрэгцээнд нийцсэн тусгай саналуудыг санал болгож чадна.
  • Зах зээлийн сагсны шинжилгээ
    Энэ техник нь хэрэв та тодорхой бүлгийн бүтээгдэхүүн худалдаж авбал өөр бүлгийн бүтээгдэхүүнийг худалдан авах магадлал өндөр байдаг гэсэн онол дээр суурилдаг. Нэг алдартай жишээ: аавууд хүүхдэдээ живх худалдаж авахдаа живхтэй нь хамт шар айраг авдаг.
  • Борлуулалтын таамаглал
    Энэ нь зах зээлийн сагсны шинжилгээтэй төстэй мэт санагдаж болох ч энэ удаагийн өгөгдлийн шинжилгээг хэрэглэгч ирээдүйд хэзээ дахин бүтээгдэхүүн худалдаж авахыг урьдчилан таамаглахад ашигладаг. Жишээлбэл, дасгалжуулагч 9 сарын турш үйлчлэх ёстой нэг лааз уураг худалдаж авдаг. Энэ уургийг зардаг дэлгүүр 9 сарын дараа шинийг гаргахаар төлөвлөж байгаа тул дасгалжуулагч дахин худалдаж авах болно.
  • Луйврыг илрүүлэх
    Өгөгдлийн олборлолт нь залилан илрүүлэх загвар бүтээхэд тусалдаг. Хуурамч, үнэн зөв тайлангийн дээжийг цуглуулснаар бизнес эрхлэгчид ямар гүйлгээ нь сэжигтэй болохыг тодорхойлох эрх мэдэлтэй болдог.
  • Үйлдвэрлэлд хэв маягийг илрүүлэх
    Үйлдвэрлэлийн салбарт дата олборлолт нь бүтээгдэхүүний бүтэц, профайл, хэрэглэгчийн хэрэгцээ хоорондын хамаарлыг тодорхойлох замаар системийг зохион бүтээхэд тусалдаг. Өгөгдөл олборлолт нь бүтээгдэхүүн боловсруулах хугацаа, зардлыг урьдчилан таамаглах боломжтой.

Эдгээр нь өгөгдөл олборлолтод ашиглах цөөн хэдэн тохиолдол юм.

Өгөгдөл олборлох үе шатууд

Өгөгдлийн олборлолт нь хэв маягийг үнэлэх, эцсийн дүндээ үнэ цэнийг гаргах зорилгоор өгөгдлийг цуглуулах, сонгох, цэвэрлэх, өөрчлөх, задлах цогц үйл явц юм.

Өгөгдөл олборлолт ба өгөгдөл олборлолт хоёрын ялгааг ойлгох

Ерөнхийдөө өгөгдөл олборлох үйл явцыг бүхэлд нь 7 үе шаттайгаар нэгтгэж болно.

  1. Өгөгдөл цэвэрлэх
    Бодит ертөнцөд өгөгдөл нь үргэлж цэвэрлэж, бүтэцтэй байдаггүй. Тэдгээр нь ихэвчлэн чимээ шуугиантай, бүрэн бус, алдаатай байдаг. Өгөгдөл олборлолтын үр дүн үнэн зөв эсэхийг шалгахын тулд эхлээд өгөгдлийг цэвэрлэх хэрэгтэй. Зарим цэвэрлэх аргууд нь дутуу утгыг бөглөх, автомат болон гарын авлагын удирдлага гэх мэт орно.
  2. Өгөгдлийн интеграци
    Энэ бол янз бүрийн эх сурвалжаас өгөгдлийг гаргаж авах, нэгтгэх, нэгтгэх үе шат юм. Эх сурвалжууд нь мэдээллийн сан, текст файл, хүснэгт, баримт бичиг, олон хэмжээст мэдээллийн багц, интернет гэх мэт байж болно.
  3. Өгөгдлийн түүвэрлэлт
    Ихэвчлэн өгөгдөл олборлоход бүх нэгдсэн өгөгдөл шаардлагагүй байдаг. Өгөгдлийн түүвэрлэлт гэдэг нь том өгөгдлийн сангаас зөвхөн хэрэгцээт өгөгдлийг сонгон гаргаж авах үе шат юм.
  4. Өгөгдлийн хөрвүүлэлт
    Өгөгдлийг сонгосны дараа олборлолтод тохиромжтой хэлбэрт шилжүүлдэг. Энэ үйл явц нь хэвийн болгох, нэгтгэх, нэгтгэх гэх мэт.
  5. Өгөгдлийн олборлолт
    Өгөгдөл олборлолтын хамгийн чухал хэсэг энд ирдэг - тэдгээрийн доторх хэв маягийг олохын тулд ухаалаг аргуудыг ашиглах. Энэ үйл явц нь регресс, ангилал, таамаглал, кластер, холбоод суралцах гэх мэт.
  6. Загварын үнэлгээ
    Энэ алхам нь ашигтай байж болох, ойлгоход хялбар хэв маяг, түүнчлэн таамаглалыг дэмжих хэв маягийг тодорхойлох зорилготой.
  7. Мэдлэгийн төлөөлөл
    Эцсийн шатанд олж авсан мэдээллийг мэдлэгийг илэрхийлэх, дүрслэх аргыг ашиглан сэтгэл татам байдлаар танилцуулдаг.

Өгөгдөл олборлолтын сул тал

  • Цаг хугацаа, хөдөлмөрийн асар их хөрөнгө оруулалт
    Дата олборлолт нь урт бөгөөд нарийн төвөгтэй үйл явц учраас бүтээмжтэй, чадварлаг хүмүүсээс маш их хөдөлмөр шаарддаг. Өгөгдөл судлаачид өгөгдөл олборлох хүчирхэг хэрэгслийг ашиглаж болох ч өгөгдлийг бэлтгэж, үр дүнг ойлгоход мэргэжилтнүүд хэрэгтэй. Үүний үр дүнд бүх мэдээллийг боловсруулахад тодорхой хугацаа шаардагдана.
  • Өгөгдлийн нууцлал ба аюулгүй байдал
    Дата олборлолт нь зах зээлийн аргаар хэрэглэгчдийн талаарх мэдээллийг цуглуулдаг тул хэрэглэгчийн нууцлалыг зөрчиж болно. Үүнээс гадна хакерууд өгөгдөл олборлох системд хадгалагдсан өгөгдлийг олж авах боломжтой. Энэ нь хэрэглэгчийн мэдээллийн аюулгүй байдалд заналхийлж байна. Хулгайлагдсан өгөгдлийг буруугаар ашиглавал бусдад амархан хор хөнөөл учруулж болзошгүй.

Дээрх нь дата олборлолтын товч танилцуулга юм. Өмнө дурьдсанчлан, өгөгдөл олборлолт нь өгөгдөл цуглуулах, нэгтгэх үйл явцыг агуулдаг бөгөөд үүнд өгөгдөл задлах (мэдээлэл олборлох) үйл явц орно. Энэ тохиолдолд өгөгдөл олборлох нь урт хугацааны өгөгдөл олборлох үйл явцын нэг хэсэг байж болно гэж хэлэх нь аюулгүй юм.

Өгөгдөл олборлолт гэж юу вэ?

Мөн "вэб өгөгдөл олборлох" болон "вэб хусах" гэж нэрлэдэг энэ үйл явц нь (ихэвчлэн бүтэцгүй эсвэл муу бүтэцтэй) мэдээллийн эх үүсвэрээс өгөгдлийг төвлөрсөн байршилд гаргаж, хадгалах эсвэл цаашид боловсруулах зорилгоор нэг байршилд төвлөрүүлэх үйлдэл юм. Тодруулбал, бүтэцгүй өгөгдлийн эх сурвалжид вэб хуудас, цахим шуудан, баримт бичиг, PDF файл, сканнердсан текст, үндсэн фрэймийн тайлан, дамар файл, зарлал гэх мэт орно. Төвлөрсөн хадгалалт нь орон нутгийн, үүл эсвэл эрлийз байж болно. Өгөгдөл олборлолтод дараа нь тохиолдож болох боловсруулалт болон бусад шинжилгээг оруулаагүй гэдгийг санах нь чухал.

Өгөгдөл олборлолтоор юу хийж болох вэ?

Үндсэндээ өгөгдөл олборлох зорилго нь 3 ангилалд хуваагддаг.

  • Архивлаж байна
    Өгөгдөл олборлолт нь ном, сонин, нэхэмжлэх зэрэг физик форматаас өгөгдлийг хадгалах, нөөцлөх мэдээллийн сан гэх мэт тоон формат руу хөрвүүлэх боломжтой.
  • Өгөгдлийн форматыг өөрчлөх
    Та одоогийн сайтаасаа боловсруулж байгаа шинэ сайт руу өгөгдөл шилжүүлэхийг хүсвэл үүнийг задлах замаар өөрийн сайтаас өгөгдөл цуглуулах боломжтой.
  • Мэдээллийн дүн шинжилгээ хийх
    Үүнийг ойлгохын тулд олж авсан өгөгдөлд нэмэлт дүн шинжилгээ хийх нь түгээмэл байдаг. Энэ нь дата олборлолттой төстэй сонсогдож магадгүй ч дата олборлолт нь түүний нэг хэсэг биш харин дата олборлолтын зорилго гэдгийг санаарай. Түүгээр ч зогсохгүй өгөгдөлд өөр өөр дүн шинжилгээ хийдэг. Үүний нэг жишээ бол онлайн дэлгүүрийн эзэд өрсөлдөгчийн стратегийг бодит цаг хугацаанд хянахын тулд Amazon зэрэг цахим худалдааны сайтуудаас бүтээгдэхүүний мэдээллийг татаж авдаг. Өгөгдөл олборлох нэгэн адил өгөгдөл олборлох нь олон давуу талтай автомат процесс юм. Өмнө нь хүмүүс өгөгдлийг нэг газраас нөгөө рүү гараар хуулж, буулгадаг байсан нь маш их цаг зарцуулдаг байсан. Өгөгдөл олборлолт нь цуглуулгыг хурдасгаж, гаргаж авсан өгөгдлийн нарийвчлалыг ихээхэн сайжруулдаг.

Өгөгдөл олборлолтыг ашиглах зарим жишээ

Дата олборлолттой адил дата олборлолт нь янз бүрийн салбарт өргөн хэрэглэгддэг. Цахим худалдааны үнийн хяналтаас гадна дата олборлолт нь таны хувийн судалгаа, мэдээ нэгтгэх, маркетинг, үл хөдлөх хөрөнгө, аялал жуулчлал, зөвлөгөө өгөх, санхүү гэх мэт олон зүйлд тусалж чадна.

  • Тэргүүлэх үе
    Компаниуд: Yelp, Crunchbase, Yellowpages зэрэг лавлахаас мэдээлэл гаргаж, бизнесийг хөгжүүлэхэд чиглүүлэх боломжтой. Та Yellowpages-ээс өгөгдлийг хэрхэн гаргаж авах талаар сурахын тулд доорх видеог үзэж болно вэб хусах загвар.

  • Агуулга, мэдээний нэгтгэл
    Агуулга нэгтгэх вэб сайтууд нь олон эх сурвалжаас тогтмол мэдээлэл хүлээн авч, сайтуудаа шинэчилж байх боломжтой.
  • Мэдрэмжийн шинжилгээ
    Мэргэжилтнүүд Instagram, Twitter зэрэг нийгмийн сүлжээн дэх шүүмж, сэтгэгдэл, гэрчлэлийг судалсны дараа үндсэн хандлагыг шинжилж, брэнд, бүтээгдэхүүн, үзэгдлийг хэрхэн хүлээн авч байгаа талаар ойлголттой болох боломжтой.

Өгөгдөл олборлох алхамууд

Өгөгдөл олборлолт нь ETL (Extract, Transform, Load: Extract, Transform, Load) болон ELT (Extract, Load, and Transform) программын эхний шат юм. ETL болон ELT нь өөрсдөө бүрэн мэдээлэл нэгтгэх стратегийн нэг хэсэг юм. Өөрөөр хэлбэл, өгөгдлийг задлах нь тэдгээрийн олборлолтын нэг хэсэг байж болно.

Өгөгдөл олборлолт ба өгөгдөл олборлолт хоёрын ялгааг ойлгох
Хандлах, хувиргах, ачаалах

Өгөгдлийн олборлолт нь их хэмжээний өгөгдлөөс мэдээлэл гаргаж авах явдал боловч өгөгдөл олборлох нь хамаагүй богино бөгөөд энгийн үйл явц юм. Үүнийг гурван үе шат болгон бууруулж болно:

  1. Өгөгдлийн эх сурвалжийг сонгох
    Вэбсайт гэх мэт өгөгдөл гаргаж авахыг хүссэн эх сурвалжаа сонгоно уу.
  2. Өгөгдөл цуглуулах
    Сайт руу "GET" хүсэлт илгээж, үүссэн HTML баримтыг Python, PHP, R, Ruby гэх мэт програмчлалын хэлийг ашиглан задлан шинжилнэ үү.
  3. Өгөгдөл хадгалах
    Өгөгдлийг цаашид ашиглахын тулд дотоод мэдээллийн сан эсвэл үүлэн санд хадгална уу. Хэрэв та өгөгдөл задлахыг хүсч буй туршлагатай програмист бол дээрх алхамууд танд энгийн мэт санагдаж магадгүй юм. Гэсэн хэдий ч, хэрэв та програмист биш бол товчлол байдаг - гэх мэт өгөгдөл олборлох хэрэгслийг ашиглах Наймаалж. Өгөгдөл олборлох хэрэгслүүд нь өгөгдөл олборлох хэрэгслүүдтэй адил эрчим хүч хэмнэх, өгөгдөл боловсруулах ажлыг хүн бүрт хялбар болгох зорилготой юм. Эдгээр хэрэгслүүд нь зөвхөн хэмнэлттэй төдийгүй эхлэгчдэд тохиромжтой. Эдгээр нь хэрэглэгчдэд хэдэн минутын дотор өгөгдлийг цуглуулж, үүлэн дээр хадгалах, Excel, CSV, HTML, JSON, эсвэл API-ээр дамжуулан олон формат руу экспортлох боломжийг олгодог.

Өгөгдөл олборлолтын сул тал

  • Сервер эвдэрсэн
    Мэдээллийг их хэмжээгээр задлах үед зорилтот сайтын вэб сервер хэт ачаалалтай байж болох бөгөөд энэ нь серверийн эвдрэлд хүргэж болзошгүй юм. Энэ нь сайт эзэмшигчийн эрх ашгийг хохироох болно.
  • IP-ээр хориглох
    Хүн хэт олон удаа мэдээлэл цуглуулах үед вэбсайтууд нь тэдний IP хаягийг хааж болно. Нөөц нь IP хаягийг бүрэн хориглох эсвэл өгөгдлийг бүрэн бус болгосноор хандалтыг хязгаарлаж болно. Өгөгдөл авах, хаахаас зайлсхийхийн тулд та үүнийг дунд зэргийн хурдтайгаар хийж, блоклохын эсрэг зарим аргыг ашиглах хэрэгтэй.
  • Хуультай холбоотой асуудлууд
    Вэбээс өгөгдөл задлах нь хууль ёсны байх үед саарал талбарт ордог. Linkedin, Facebook зэрэг томоохон сайтууд өөрсдийн ашиглалтын нөхцөлд автоматаар мэдээлэл авахыг хориглоно гэж тодорхой заасан байдаг. Ботын үйл ажиллагаанаас болж компаниудын хооронд олон шүүх хурал болсон.

Өгөгдөл олборлолт ба өгөгдөл олборлох хоёрын гол ялгаа

  1. Өгөгдлийн олборлолтыг мэдээллийн санд мэдлэг олж илрүүлэх, мэдлэг олборлох, өгөгдөл/загварын шинжилгээ, мэдээлэл цуглуулах гэж бас нэрлэдэг. Өгөгдөл олборлолтыг вэб өгөгдөл задлах, вэб хуудсыг сканнердах, мэдээлэл цуглуулах гэх мэтээр сольж ашигладаг.
  2. Өгөгдлийн олборлолтын судалгаа нь ихэвчлэн бүтэцлэгдсэн өгөгдөл дээр суурилдаг бол өгөгдөл олборлолт нь ихэвчлэн бүтэцгүй эсвэл муу бүтэцтэй эх сурвалжаас авдаг.
  3. Өгөгдөл олборлолтын зорилго нь өгөгдлийг шинжилгээнд илүү ашигтай болгох явдал юм. Өгөгдөл олборлолт гэдэг нь өгөгдлийг хадгалах эсвэл боловсруулах боломжтой нэг газар цуглуулах явдал юм.
  4. Өгөгдлийн олборлолт дахь дүн шинжилгээ нь хэв маяг, чиг хандлагыг тодорхойлох математик аргууд дээр суурилдаг. Өгөгдөл олборлолт нь эх сурвалжийг тойрч гарах програмчлалын хэл эсвэл өгөгдөл олборлох хэрэгсэлд суурилдаг.
  5. Өгөгдлийн олборлолтын зорилго нь урьд өмнө мэдэгдээгүй эсвэл үл тоомсорлож байсан баримтуудыг олоход оршдог бол өгөгдөл олборлолт нь одоо байгаа мэдээллийг авч үздэг.
  6. Өгөгдлийн олборлолт нь илүү төвөгтэй бөгөөд хүмүүсийг сургахад их хэмжээний хөрөнгө оруулалт шаарддаг. Зөв хэрэгслээр өгөгдөл гаргаж авах нь маш хялбар бөгөөд зардал багатай байж болно.

Бид эхлэгчдэд Data-д төөрөхгүй байхад нь тусалдаг. Ялангуяа хабравчануудад зориулж сурталчилгааны код хийсэн ХАБР, баннер дээр заасан хөнгөлөлтөд нэмэлт 10% хөнгөлөлт үзүүлэх.

Өгөгдөл олборлолт ба өгөгдөл олборлолт хоёрын ялгааг ойлгох

Илүү олон курс

Онцлох нийтлэлүүд

Эх сурвалж: www.habr.com