දත්ත විද්‍යාවේ වැරදි විය හැක්කේ කුමක් ද? දත්ත එකතුව

දත්ත විද්‍යාවේ වැරදි විය හැක්කේ කුමක් ද? දත්ත එකතුව
අද දත්ත විද්‍යා පාඨමාලා 100500 ක් ඇති අතර දත්ත විද්‍යාවේ වැඩිම මුදලක් උපයා ගත හැක්කේ දත්ත විද්‍යා පාඨමාලා හරහා බව බොහෝ කලක සිට දන්නා කරුණකි. මෙම පාඨමාලා වල ප්රධාන අවාසිය නම් ඔවුන් සැබෑ කාර්යය සමඟ කිසිදු සම්බන්ධයක් නොමැති වීමයි: කිසිවෙකු ඔබට අවශ්ය ආකෘතියේ පිරිසිදු, සැකසූ දත්ත ලබා නොදේ. ඔබ පාඨමාලාවෙන් ඉවත් වී සැබෑ ගැටළුවක් විසඳීමට පටන් ගත් විට, බොහෝ සූක්ෂ්මතා මතු වේ.

එමනිසා, අපි මට, මගේ සහෝදරවරුන්ට සහ සගයන්ට සිදු වූ සත්‍ය සිදුවීම් මත පදනම්ව “දත්ත විද්‍යාවේ වැරැද්ද කුමක් විය හැකිද” සටහන් මාලාවක් ආරම්භ කරමු. අපි සැබෑ උදාහරණ භාවිතයෙන් සාමාන්‍ය දත්ත විද්‍යා කාර්යයන් විශ්ලේෂණය කරන්නෙමු: මෙය ඇත්ත වශයෙන්ම සිදුවන්නේ කෙසේද. අපි අද දත්ත රැස් කිරීමේ කාර්යයෙන් පටන් ගනිමු.

සැබෑ දත්ත සමඟ වැඩ කිරීමට පටන් ගත් විට මිනිසුන් පැකිළෙන පළමු දෙය ඇත්ත වශයෙන්ම අපට වඩාත්ම අදාළ වන මෙම දත්ත රැස් කිරීමයි. මෙම ලිපියේ ප්රධාන පණිවිඩය:

දත්ත රැස් කිරීමට, පිරිසිදු කිරීමට සහ සකස් කිරීමට අවශ්‍ය කාලය, සම්පත් සහ ශ්‍රමය අපි ක්‍රමානුකූලව අවතක්සේරු කරමු.

වැදගත්ම දෙය නම්, මෙය වළක්වා ගැනීමට කුමක් කළ යුතු දැයි අපි සාකච්ඡා කරමු.

විවිධ ඇස්තමේන්තු අනුව, පිරිසිදු කිරීම, පරිවර්තනය, දත්ත සැකසීම, විශේෂාංග ඉංජිනේරු, ආදිය කාලය 80-90%, සහ විශ්ලේෂණය 10-20%, සියලු අධ්‍යාපනික ද්‍රව්‍ය පාහේ විශ්ලේෂණය කෙරෙහි පමණක් අවධානය යොමු කරයි.

සාමාන්‍ය උදාහරණයක් ලෙස අනුවාද තුනකින් සරල විශ්ලේෂණාත්මක ගැටලුවක් දෙස බලමු "උග්‍රවන තත්වයන්" යනු කුමක්දැයි බලමු.

උදාහරණයක් ලෙස, නැවතත්, අපි දත්ත එකතු කිරීමේ සහ ප්‍රජාවන් සංසන්දනය කිරීමේ කාර්යයේ සමාන වෙනස්කම් සලකා බලමු:

  1. Reddit subreddits දෙකක්
  2. Habr හි කොටස් දෙකක්
  3. Odnoklassniki කණ්ඩායම් දෙකක්

න්යාය තුළ කොන්දේසි සහිත ප්රවේශය

වෙබ් අඩවිය විවෘත කර උදාහරණ කියවන්න, එය පැහැදිලි නම්, කියවීම සඳහා පැය කිහිපයක්, උදාහරණ සහ නිදොස්කරණය භාවිතා කරමින් කේතය සඳහා පැය කිහිපයක් වෙන් කරන්න. එකතු කිරීම සඳහා පැය කිහිපයක් එකතු කරන්න. රක්ෂිතයේ පැය කිහිපයක් විසි කරන්න (දෙකකින් ගුණ කර පැය N එකතු කරන්න).

ප්‍රධාන කරුණ: කාල ඇස්තමේන්තු පදනම් වන්නේ එය කොපමණ කාලයක් ගතවේද යන්න පිළිබඳ උපකල්පන සහ අනුමාන මතය.

ඉහත විස්තර කර ඇති කොන්දේසි සහිත ගැටළුව සඳහා පහත පරාමිතීන් ඇස්තමේන්තු කිරීමෙන් කාල විශ්ලේෂණය ආරම්භ කිරීම අවශ්ය වේ:

  • දත්තවල ප්‍රමාණය කොපමණද සහ එයින් කොපමණ ප්‍රමාණයක් භෞතිකව එකතු කළ යුතුද (*පහත බලන්න*).
  • එක් වාර්තාවක් සඳහා එකතු කිරීමේ කාලය කුමක්ද සහ ඔබට දෙවැන්න එකතු කිරීමට පෙර කොපමණ කාලයක් බලා සිටිය යුතුද?
  • රාජ්‍යය සුරකින සහ සියල්ල අසාර්ථක වූ විට (නොවේ නම්) නැවත ආරම්භ කිරීම ආරම්භ කරන කේතය ලිවීම සලකා බලන්න.
  • අපට අවසරය අවශ්‍යද යන්න සොයා බලා API හරහා ප්‍රවේශය ලබා ගැනීමට කාලය සකසන්න.
  • දත්ත සංකීර්ණතාවයේ කාර්යයක් ලෙස දෝෂ ගණන සකසන්න - නිශ්චිත කාර්යයක් සඳහා ඇගයීම: ව්‍යුහය, පරිවර්තන කීයක්, කුමක් සහ උපුටා ගන්නේ කෙසේද.
  • ජාල දෝෂ සහ සම්මත නොවන ව්‍යාපෘති හැසිරීම් වල ගැටළු නිරාකරණය කරන්න.
  • අවශ්‍ය කාර්යයන් ප්‍රලේඛනයේ තිබේ නම් සහ එසේ නොමැති නම්, විසඳුමක් සඳහා අවශ්‍ය වන්නේ කෙසේද සහ කොපමණ දැයි තක්සේරු කරන්න.

වැදගත්ම දෙය නම් කාලය තක්සේරු කිරීම සඳහා - ඔබ සැබවින්ම "බලයෙන් ඔත්තු බැලීම" සඳහා කාලය හා ශ්‍රමය වැය කළ යුතුය - එවිට පමණක් ඔබේ සැලසුම් ප්‍රමාණවත් වනු ඇත. එමනිසා, “දත්ත එකතු කිරීමට කොපමණ කාලයක් ගතවේද” යැයි කීමට ඔබ කොපමණ තල්ලු කළත් - මූලික විශ්ලේෂණයක් සඳහා ඔබම යම් කාලයක් මිල දී ගෙන කාර්යයේ සැබෑ පරාමිතීන් අනුව කාලය කොපමණ වෙනස් වේ දැයි තර්ක කරන්න.

දැන් අපි එවැනි පරාමිතීන් වෙනස් වන නිශ්චිත උදාහරණ නිරූපණය කරන්නෙමු.

ප්‍රධාන කරුණ: ඇස්තමේන්තුව පදනම් වී ඇත්තේ කාර්යයේ විෂය පථය සහ සංකීර්ණත්වය කෙරෙහි බලපාන ප්‍රධාන සාධක විශ්ලේෂණය කිරීම මත ය.

ක්‍රියාකාරී මූලද්‍රව්‍ය ප්‍රමාණවත් තරම් කුඩා වන විට සහ ගැටලුවේ සැලසුමට සැලකිය යුතු ලෙස බලපාන බොහෝ සාධක නොමැති විට අනුමාන මත පදනම් වූ ඇස්තමේන්තුව හොඳ ප්‍රවේශයකි. නමුත් දත්ත විද්‍යාවේ ගැටළු ගණනාවක් සම්බන්ධයෙන්, එවැනි සාධක අතිශයින් විශාල වන අතර එවැනි ප්‍රවේශයක් ප්‍රමාණවත් නොවේ.

Reddit ප්රජාවන් සංසන්දනය කිරීම

අපි සරලම නඩුවෙන් පටන් ගනිමු (එය පසුව හැරෙන පරිදි). පොදුවේ ගත් කල, සම්පූර්ණයෙන්ම අවංක වීමට නම්, අපට පරමාදර්ශී නඩුවක් තිබේ, අපි අපගේ සංකීර්ණතා පිරික්සුම් ලැයිස්තුව පරීක්ෂා කරමු:

  • පිළිවෙලට, පැහැදිලි සහ ලේඛනගත API එකක් ඇත.
  • එය අතිශයින්ම සරල වන අතර වඩාත්ම වැදගත් දෙය නම්, ටෝකනයක් ස්වයංක්රීයව ලබා ගනී.
  • ඇත python wrapper - බොහෝ උදාහරණ සමඟ.
  • reddit මත දත්ත විශ්ලේෂණය කර එකතු කරන ප්‍රජාවක් (පයිතන් දවටන භාවිතා කරන ආකාරය පැහැදිලි කරන YouTube වීඩියෝවලට පවා) උදාහරණ වශයෙන්.
  • අපට අවශ්‍ය ක්‍රම බොහෝ විට API හි පවතී. එපමනක් නොව, කේතය සංයුක්ත හා පිරිසිදු බව පෙනේ, පහත දැක්වෙන්නේ පෝස්ට් එකක අදහස් එකතු කරන කාර්යයක උදාහරණයකි.

def get_comments(submission_id):
    reddit = Reddit(check_for_updates=False, user_agent=AGENT)
    submission = reddit.submission(id=submission_id)
    more_comments = submission.comments.replace_more()
    if more_comments:
        skipped_comments = sum(x.count for x in more_comments)
        logger.debug('Skipped %d MoreComments (%d comments)',
                     len(more_comments), skipped_comments)
    return submission.comments.list()

වෙතින් උපුටා ගන්නා ලදී මේ එතීමට පහසු උපයෝගිතා තෝරාගැනීම.

මෙය හොඳම අවස්ථාව වුවද, සැබෑ ජීවිතයේ වැදගත් සාධක ගණනාවක් සැලකිල්ලට ගැනීම තවමත් වටී:

  • API සීමාවන් - අපට කණ්ඩායම් වශයෙන් දත්ත ගැනීමට බල කෙරේ (ඉල්ලීම් අතර නිදාගැනීම, ආදිය).
  • එකතු කිරීමේ කාලය - සම්පූර්ණ විශ්ලේෂණයක් සහ සංසන්දනයක් සඳහා, ඔබට මකුළුවාට subreddit හරහා ගමන් කිරීම සඳහා සැලකිය යුතු කාලයක් වෙන් කිරීමට සිදුවනු ඇත.
  • බොට් සර්වරයක් මත ක්‍රියාත්මක විය යුතුය - ඔබට එය ඔබගේ ලැප්ටොප් එක මත ධාවනය කිරීමට, එය ඔබගේ බෑගයට දමා, සහ ඔබේ ව්‍යාපාරය කරගෙන යාමට නොහැක. ඒ නිසා මම VPS එකකින් හැම දෙයක්ම ධාවනය කළා. habrahabr10 ප්‍රවර්ධන කේතය භාවිතා කිරීමෙන් ඔබට පිරිවැයෙන් තවත් 10%ක් ඉතිරි කර ගත හැක.
  • සමහර දත්තවල භෞතික ප්‍රවේශ්‍යතාවය (ඒවා පරිපාලකයින්ට දෘශ්‍යමාන හෝ එකතු කිරීමට අපහසු වේ) - මෙය සැලකිල්ලට ගත යුතුය; ප්‍රතිපත්තිමය වශයෙන්, සියලුම දත්ත ප්‍රමාණවත් කාලයක් තුළ රැස් කළ නොහැක.
  • ජාල දෝෂ: ජාලකරණය වේදනාවකි.
  • මෙය ජීවමාන සැබෑ දත්ත - එය කිසි විටෙකත් පිරිසිදු නොවේ.

ඇත්ත වශයෙන්ම, සංවර්ධනය සඳහා මෙම සූක්ෂ්මතා ඇතුළත් කිරීම අවශ්ය වේ. නිශ්චිත පැය/දින සංවර්ධන අත්දැකීම් හෝ සමාන කාර්යයන් මත වැඩ කරන අත්දැකීම් මත රඳා පවතී, කෙසේ වෙතත්, මෙහි කාර්යය තනිකරම ඉංජිනේරුමය වන අතර විසඳීමට අමතර ශරීර චලනයන් අවශ්‍ය නොවන බව අපට පෙනේ - සියල්ල ඉතා හොඳින් තක්සේරු කර, කාලසටහන්ගත කර සිදු කළ හැකිය.

Habr කොටස් සංසන්දනය කිරීම

අපි Habr හි නූල් සහ/හෝ කොටස් සංසන්දනය කිරීමේ වඩාත් රසවත් හා සුළු නොවන අවස්ථාවක් වෙත යමු.

අපි අපගේ සංකීර්ණතා පිරික්සුම් ලැයිස්තුව පරීක්ෂා කරමු - මෙන්න, එක් එක් කරුණ තේරුම් ගැනීම සඳහා, ඔබට කාර්යය මඳක් හාරා අත්හදා බැලීමට සිදුවනු ඇත.

  • මුලදී ඔබ API එකක් ඇතැයි සිතනවා, නමුත් නැත. ඔව්, ඔව්, Habr සතුව API ඇත, නමුත් එය පරිශීලකයින්ට ප්‍රවේශ විය නොහැක (නැතහොත් එය කිසිසේත්ම ක්‍රියා නොකරයි).
  • එවිට ඔබ html - "ආනයන ඉල්ලීම්" විග්‍රහ කිරීමට පටන් ගන්න, කුමක් වැරදි විය හැකිද?
  • කෙසේ වෙතත් විග්‍රහ කරන්නේ කෙසේද? සරලම සහ නිතර භාවිතා කරන ප්‍රවේශය වන්නේ හැඳුනුම්පත් හරහා පුනරාවර්තනය කිරීමයි, එය වඩාත්ම කාර්යක්ෂම නොවන අතර විවිධ අවස්ථා හැසිරවීමට සිදුවනු ඇති බව සලකන්න - පවතින සියලුම හැඳුනුම්පත් අතර සැබෑ හැඳුනුම්පත්වල ඝනත්වය පිළිබඳ උදාහරණයක් මෙන්න.

    දත්ත විද්‍යාවේ වැරදි විය හැක්කේ කුමක් ද? දත්ත එකතුව
    වෙතින් උපුටා ගන්නා ලදී මේ ලිපි.

  • වෙබය මත HTML වලින් ඔතා ඇති අමු දත්ත වේදනාවකි. උදාහරණයක් ලෙස, ඔබට ලිපියක ශ්‍රේණිගත කිරීම එකතු කර සුරැකීමට අවශ්‍යයි: ඔබ html වෙතින් ලකුණු ඉරා දමා එය තවදුරටත් සැකසීම සඳහා අංකයක් ලෙස සුරැකීමට තීරණය කර ඇත: 

    1) int(ලකුණු) දෝෂයක් ඇති කරයි: Habré හි අඩුවක් ඇති බැවින්, උදාහරණයක් ලෙස, “–5” පේළියේ - මෙය එන් ඉරක් මිස අඩු ලකුණක් නොවේ (අනපේක්ෂිත ලෙස, හරිද?), එසේ යම් අවස්ථාවක දී මට විග්‍රහ කරන්නා මෙතරම් භයානක විසඳුමක් සමඟ ජීවයට නැංවීමට සිදු විය.

    try:
          score_txt = post.find(class_="score").text.replace(u"–","-").replace(u"+","+")
          score = int(score_txt)
          if check_date(date):
            post_score += score
    

    දිනයක්, ප්ලස් සහ අවාසි කිසිසේත්ම නොතිබිය හැකිය (අපි ඉහත check_date ශ්‍රිතයේ දකින පරිදි, මෙය සිදු විය).

    2) නොගැලපෙන විශේෂ චරිත - ඔවුන් පැමිණෙනු ඇත, ඔබ සූදානම් විය යුතුය.

    3) පෝස්ට් වර්ගය අනුව ව්යුහය වෙනස් වේ.

    4) පැරණි තනතුරු වල **අමුතු ව්‍යුහයක්** තිබිය හැක.

  • අත්‍යවශ්‍යයෙන්ම, දෝෂ හැසිරවීම සහ සිදුවිය හැකි හෝ නොවිය හැකි දේ හසුරුවා ගත යුතු අතර, ඔබට වැරදෙන්නේ කුමක්ද සහ ව්‍යුහය කෙසේ විය හැකිද සහ කොතැනින් වැටෙන්නේද යන්න ඔබට නිශ්චිතව අනාවැකි කිව නොහැක - ඔබ උත්සාහ කර සැලකිල්ලට ගත යුතුය. විග්‍රහ කරන්නා දමන දෝෂ.
  • එවිට ඔබට ත්‍රෙඩ් කිහිපයකින් විග්‍රහ කිරීමට අවශ්‍ය බව ඔබට වැටහේ, එසේ නොමැතිනම් එකකින් විග්‍රහ කිරීමට පැය 30+ ක් ගතවනු ඇත (මෙය සම්පූර්ණයෙන්ම ක්‍රියාත්මක වන තනි නූල් විග්‍රහයක ක්‍රියාත්මක කිරීමේ කාලය වන අතර එය නිදාගෙන සිටින අතර කිසිදු තහනමකට යටත් නොවේ). තුල මේ ලිපිය, මෙය යම් අවස්ථාවක දී සමාන යෝජනා ක්රමයකට තුඩු දුන්නේය:

දත්ත විද්‍යාවේ වැරදි විය හැක්කේ කුමක් ද? දත්ත එකතුව

සංකීර්ණත්වය අනුව සම්පූර්ණ පිරික්සුම් ලැයිස්තුව:

  • ජාලය සමඟ වැඩ කිරීම සහ පුනරාවර්තනය සමඟ html විග්‍රහ කිරීම සහ හැඳුනුම්පත අනුව සෙවීම.
  • විෂමජාතීය ව්යුහයේ ලේඛන.
  • කේතය පහසුවෙන් වැටිය හැකි ස්ථාන බොහොමයක් තිබේ.
  • ලියන්න ඕනේ || කේතය.
  • අවශ්‍ය ලියකියවිලි, කේත උදාහරණ, සහ/හෝ ප්‍රජාව අස්ථානගත වී ඇත.

මෙම කාර්යය සඳහා ඇස්තමේන්තුගත කාලය Reddit වෙතින් දත්ත රැස් කිරීමට වඩා 3-5 ගුණයකින් වැඩි වනු ඇත.

Odnoklassniki කණ්ඩායම් සංසන්දනය කිරීම

විස්තර කර ඇති වඩාත්ම තාක්ෂණික වශයෙන් සිත්ගන්නා නඩුව වෙත අපි යමු. මට නම්, එය හරියටම සිත්ගන්නා සුළු වූයේ බැලූ බැල්මට එය ඉතා සුළු දෙයක් ලෙස පෙනේ, නමුත් එය කිසිසේත් එසේ නොවේ - ඔබ එයට සැරයටියක් විදින විගසම.

අපි අපගේ දුෂ්කරතා පිරික්සුම් ලැයිස්තුවෙන් පටන් ගනිමු, ඒවායින් බොහොමයක් ඔවුන් මුලින් බලන ප්‍රමාණයට වඩා දුෂ්කර වනු ඇති බව සලකන්න:

  • API එකක් ඇත, නමුත් එය සම්පූර්ණයෙන්ම පාහේ අවශ්ය කාර්යයන් නොමැත.
  • සමහර කාර්යයන් සඳහා ඔබට තැපෑලෙන් ප්‍රවේශය ඉල්ලා සිටිය යුතුය, එනම් ප්‍රවේශය ලබා දීම ක්ෂණික නොවේ.
  • එය දරුණු ලෙස ලේඛනගත කර ඇත (ආරම්භයට, රුසියානු සහ ඉංග්‍රීසි යෙදුම් සෑම තැනකම මිශ්‍ර වී ඇති අතර සම්පූර්ණයෙන්ම නොගැලපෙන පරිදි - සමහර විට ඔබට අවශ්‍ය වන්නේ ඔවුන් ඔබෙන් කොතැනක හෝ අවශ්‍ය දේ අනුමාන කිරීමට ය) සහ, එපමනක් නොව, දත්ත ලබා ගැනීම සඳහා සැලසුම සුදුසු නොවේ, උදාහරණයක් ලෙස , අපට අවශ්ය කාර්යය.
  • ප්‍රලේඛනයේ සැසියක් අවශ්‍ය වේ, නමුත් ඇත්ත වශයෙන්ම එය භාවිතා නොකරයි - සහ යමක් ක්‍රියාත්මක වේ යැයි බලාපොරොත්තු වීම හැර API මාදිලියේ සියලු සංකීර්ණතා තේරුම් ගැනීමට ක්‍රමයක් නොමැත.
  • නිදසුන් සහ ප්‍රජාවක් නොමැත; තොරතුරු එක්රැස් කිරීමේදී ඇති එකම සහය වන්නේ කුඩා ප්‍රමාණයකි වැස්ම Python හි (භාවිතයේ බොහෝ උදාහරණ නොමැතිව).
  • අවශ්‍ය දත්ත බොහොමයක් අගුලු දමා ඇති බැවින් සෙලේනියම් වඩාත්ම ක්‍රියා කළ හැකි විකල්පය බව පෙනේ.
    1) එනම්, අවසරය කල්පිත පරිශීලකයෙකු හරහා සිදු වේ (සහ ලියාපදිංචිය අතින්).

    2) කෙසේ වෙතත්, සෙලේනියම් සමඟ නිවැරදි හා පුනරාවර්තන වැඩ සඳහා සහතිකයක් නොමැත (අවම වශයෙන් ok.ru සම්බන්ධයෙන්).

    3) Ok.ru වෙබ් අඩවියේ JavaScript දෝෂ අඩංගු වන අතර සමහර විට අමුතු හා නොගැලපෙන ලෙස හැසිරේ.

    4) ඔබට පිටු සැකසීම, මූලද්‍රව්‍ය පැටවීම යනාදිය කළ යුතුයි...

    5) දවටනය ලබා දෙන API දෝෂයන් අමුතු ලෙස හැසිරවීමට සිදුවනු ඇත, උදාහරණයක් ලෙස, මේ වගේ (පරීක්ෂණාත්මක කේතයක්):

    def get_comments(args, context, discussions):
        pause = 1
        if args.extract_comments:
            all_comments = set()
    #makes sense to keep track of already processed discussions
            for discussion in tqdm(discussions): 
                try:
                    comments = get_comments_from_discussion_via_api(context, discussion)
                except odnoklassniki.api.OdnoklassnikiError as e:
                    if "NOT_FOUND" in str(e):
                        comments = set()
                    else:
                        print(e)
                        bp()
                        pass
                all_comments |= comments
                time.sleep(pause)
            return all_comments
    

    මගේ ප්‍රියතම වැරැද්ද වූයේ:

    OdnoklassnikiError("Error(code: 'None', description: 'HTTP error', method: 'discussions.getComments', params: …)”)

    6) අවසාන වශයෙන්, Selenium + API වඩාත්ම තාර්කික විකල්පය ලෙස පෙනේ.

  • තත්වය සුරැකීම සහ පද්ධතිය නැවත ආරම්භ කිරීම, වෙබ් අඩවියේ නොගැලපෙන හැසිරීම ඇතුළු බොහෝ දෝෂ හැසිරවීම අවශ්‍ය වේ - සහ මෙම දෝෂ සිතීම තරමක් අපහසුය (ඔබ වෘත්තීයමය වශයෙන් විග්‍රහ කරන්නන් ලියන්නේ නම් මිස).

මෙම කාර්යය සඳහා කොන්දේසි සහිත කාල ඇස්තමේන්තුව Habr වෙතින් දත්ත රැස් කිරීමට වඩා 3-5 ගුණයකින් වැඩි වනු ඇත. Habr සම්බන්ධයෙන් ගත් කල, අපි HTML විග්‍රහ කිරීම සමඟ ඉදිරිපස ප්‍රවේශයක් භාවිතා කරන අතර OK වලදී අපට තීරණාත්මක ස්ථානවල API සමඟ වැඩ කළ හැකිය.

සොයා ගැනීම්

විශාල දත්ත සැකසුම් නල මාර්ග මොඩියුලයක “තැනදීම” (අපි අද සැලසුම් කරමින් සිටිමු!) කාලසීමාවන් කොපමණ ප්‍රමාණයක් ඇස්තමේන්තු කිරීමට ඔබට අවශ්‍ය වුවද, කාර්ය පරාමිතීන් විශ්ලේෂණය නොකර ක්‍රියාත්මක කිරීමේ කාලය ගුණාත්මකව පවා තක්සේරු කළ නොහැක.

මදක් වැඩි දාර්ශනික සටහනක් මත, කඩිසර ඇස්තමේන්තු උපාය මාර්ග ඉංජිනේරු කාර්යයන් සඳහා හොඳින් ක්‍රියා කරයි, නමුත් වඩාත් පර්යේෂණාත්මක සහ එක් අර්ථයකින් “නිර්මාණාත්මක” සහ ගවේෂණාත්මක, එනම්, අඩුවෙන් පුරෝකථනය කළ හැකි ගැටළු, සමාන මාතෘකා වල උදාහරණවල මෙන් දුෂ්කරතා ඇත. අපි මෙහි සාකච්ඡා කර ඇති.

ඇත්ත වශයෙන්ම, දත්ත එකතු කිරීම ප්‍රධාන උදාහරණයක් පමණි - එය සාමාන්‍යයෙන් ඇදහිය නොහැකි තරම් සරල සහ තාක්‍ෂණිකව සංකීර්ණ නොවන කාර්යයක් වන අතර යක්ෂයා බොහෝ විට විස්තර වල සිටී. වැරදි විය හැකි දේ සහ කාර්යයට හරියටම කොපමණ කාලයක් ගත විය හැකිද යන්න සඳහා හැකි විකල්ප මාලාවක් අපට පෙන්විය හැක්කේ මෙම කාර්යය මත ය.

ඔබ අතිරේක අත්හදා බැලීම් නොමැතිව කාර්යයේ ලක්ෂණ දෙස බැලුවහොත්, Reddit සහ OK එක සමාන වේ: API, python wrapper ඇත, නමුත් සාරය වශයෙන්, වෙනස අති විශාලය. මෙම පරාමිතීන් අනුව විනිශ්චය කිරීම, Habr's pars OK ට වඩා සංකීර්ණ බව පෙනේ - නමුත් ප්‍රායෝගිකව එය සම්පූර්ණයෙන්ම ප්‍රතිවිරුද්ධ වන අතර, ගැටලුවේ පරාමිතීන් විශ්ලේෂණය කිරීම සඳහා සරල අත්හදා බැලීම් කිරීමෙන් සොයාගත හැක්කේ මෙයයි.

මගේ අත්දැකීම් අනුව, වඩාත්ම ඵලදායී ප්රවේශය වන්නේ මූලික විශ්ලේෂණය සඳහා ඔබට අවශ්ය කාලය දළ වශයෙන් ඇස්තමේන්තු කිරීම සහ සරල පළමු අත්හදා බැලීම්, ලේඛන කියවීම - මෙම සමස්ත කාර්යය සඳහා නිවැරදි තක්සේරුවක් ලබා දීමට ඔබට ඉඩ සලසයි. ජනප්‍රිය කඩිසර ක්‍රමවේදයට අනුව, “කාර්ය පරාමිතීන් ඇස්තමේන්තු කිරීම” සඳහා ටිකට් පතක් නිර්මාණය කරන ලෙස මම ඔබෙන් ඉල්ලා සිටිමි, එහි පදනම මත “ස්ප්‍රින්ට්” තුළ කළ හැකි දේ පිළිබඳ තක්සේරුවක් ලබා දිය හැකි අතර එක් එක් සඳහා වඩාත් නිවැරදි තක්සේරුවක් ලබා දිය හැකිය. කාර්ය.

එබැවින්, වඩාත් ඵලදායී තර්කයක් ලෙස පෙනෙන්නේ, "තාක්ෂණික නොවන" විශේෂඥයෙකුට තවමත් තක්සේරු කර නොමැති පරාමිතීන් මත පදනම්ව කොපමණ කාලයක් සහ සම්පත් වෙනස් වේදැයි පෙන්විය හැකි තර්කයකි.

දත්ත විද්‍යාවේ වැරදි විය හැක්කේ කුමක් ද? දත්ත එකතුව

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න