Ин мақола шарҳ медиҳад, ки чӣ гуна мо бо мушкилоти дар боло овардашуда мубориза мебарем ва системаи таснифоти зуд ва миқёспазирро пешниҳод мекунад, ки ҷузъҳои додаҳои ҳама намудҳо, форматҳо ва манбаъҳоро дар асоси маҷмӯи умумии хусусиятҳо тасниф мекунад. Мо меъмории системаро васеъ кардем ва модели махсуси омӯзиши мошинро барои таснифоти фаврии маълумоти офлайн ва онлайн сохтем. Ин мақола ба таври зерин ташкил карда шудааст: Қисми 2 тарҳи умумии системаро пешниҳод мекунад. Қисми 3 қисмҳои системаи омӯзиши мошинро баррасӣ мекунад. Фасли 4 ва 5 кори вобастаро тавсиф мекунад ва самти ояндаи корро нишон медиҳад.
меъморӣ
Барои ҳалли мушкилоти маълумоти устувор ва онлайн дар миқёси Facebook, системаи таснифот ду ҷараёни алоҳида дорад, ки мо онҳоро ба таври муфассал баррасӣ хоҳем кард.
маълумоти устувор
Дар аввал, система бояд дар бораи дороиҳои зиёди иттилоотии Facebook маълумот гирад. Барои ҳар як мағоза, баъзе маълумоти асосӣ ҷамъоварӣ карда мешавад, ба монанди маркази додаҳо, ки ин маълумотро дар бар мегирад, системае, ки ин маълумотро нигоҳ медорад ва дороиҳое, ки дар он анбори додаҳои мушаххас ҷойгиранд. Ин феҳристи метамаълумотҳоро ташкил медиҳад, ки ба система имкон медиҳад, ки бидуни сарбории муштариён ва захираҳое, ки аз ҷониби муҳандисони дигар истифода мешаванд, ба таври муассир маълумот дарёфт кунад.
Ин каталоги метамаълумотҳо манбаи боэътимоди ҳамаи дороиҳои сканшударо таъмин мекунад ва ба шумо имкон медиҳад, ки ҳолати дороиҳои гуногунро пайгирӣ кунед. Ин маълумот ба ҷадвалбандӣ дар асоси маълумоти ҷамъовардашуда ва иттилооти дохилии система афзалият медиҳад, масалан, вақте ки дороӣ бори охир бомуваффақият скан карда шудааст ва кай офарида шудааст ва талаботи хотираи гузашта ва CPU барои ин дороиҳо, агар он қаблан скан карда шуда бошад. Сипас, барои ҳар як манбаи маълумот (ба андозаи дастрас шудани захираҳо), кори воқеии сканкунии захираҳо даъват карда мешавад.
Ҳар як кор як бинарии тартибдодашуда мебошад, ки намунаи Бернуллиро аз рӯи маълумоти охирини барои ҳар як дороии мавҷудбуда иҷро мекунад. Дороиҳо ба сутунҳои алоҳида тақсим карда мешаванд, ки дар он натиҷаи таснифоти ҳар як сутун мустақилона коркард карда мешавад. Илова бар ин, система ҳама гуна маълумоти бойро дар сутунҳо скан мекунад. JSON, массивҳо, сохторҳои рамзгузоришуда, URL-ҳо, базаи 64 маълумоти силсилавӣ ва ғайра ҳама скан карда мешаванд. Ин метавонад вақти ба итмом расонидани сканро хеле зиёд кунад, зеро як ҷадвал метавонад ҳазорҳо сутунҳои лонаро дар blob дар бар гирад json.
Барои ҳар як сатри дар дороии маълумот интихобшуда, системаи таснифот хусусиятҳои шинокунанда ва матнро аз мундариҷа ҷудо мекунад ва ҳар як хусусиятро ба сутуне, ки аз он гирифта шудааст, мепайвандад. Натиҷаи қадами истихроҷи хусусият харитаи тамоми хусусиятҳо барои ҳар як сутуни дорои маълумот мебошад.
Аломатҳо барои чӣ ҳастанд?
Консепсияи хусусиятҳо муҳим аст. Ба ҷои атрибутҳои шинокунанда ва матн, мо метавонем сатрҳои намунаи хомро гузаронем, ки мустақиман аз ҳар як манбаи маълумот гирифта мешаванд. Инчунин, моделҳои омӯзиши мошинсозӣ метавонанд мустақиман дар ҳар як намуна омӯзонида шаванд, на садҳо ҳисобҳои хусусият, ки танҳо намунаро тахминӣ мекунанд. Барои ин якчанд сабаб вуҷуд дорад:
Хотира: Баъзе намунаҳо метавонанд ҳазорҳо аломат дошта бошанд. Нигоҳ доштани ин гуна маълумот ва ба қисмҳои система интиқол додани он бе зарурат байтҳои зиёди изофаро сарф мекунад. Ин ду омил метавонанд бо мурури замон якҷоя шаванд, зеро захираҳои зиёди маълумот бо ҳазорҳо сутунҳо мавҷуданд.
Ҷамъоварии хусусиятҳо: Хусусиятҳо пешниҳоди дақиқи натиҷаҳои ҳар як сканро тавассути маҷмӯи хусусиятҳо таъмин мекунанд ва ба система имкон медиҳанд, ки натиҷаҳои сканҳои қаблии ҳамон як манбаи маълумотро ба таври мувофиқ ҷамъоварӣ кунанд. Ин метавонад барои ҷамъоварӣ кардани натиҷаҳои сканкунии як манбаи маълумот дар тӯли якчанд давиш муфид бошад.
Пас аз он хусусиятҳо ба хидмати пешгӯӣ фиристода мешаванд, ки дар он мо барои пешгӯии тамғакоғазҳои додаҳои ҳар як сутун таснифоти бар қоида ва омӯзиши мошинро истифода мебарем. Хидмат ҳам ба таснифкунандагони қоидаҳо ва ҳам омӯзиши мошинсозӣ такя мекунад ва беҳтарин пешгӯии додашударо аз ҳар як объекти пешгӯӣ интихоб мекунад.
Таснифкунандагони қоидаҳо эвристикаи дастӣ мебошанд, он ҳисобҳо ва коэффитсиентҳоро барои ба эътидол овардани объект дар диапазони аз 0 то 100 истифода мебарад. Пас аз он ки чунин холи ибтидоӣ барои ҳар як намуди маълумот тавлид мешавад ва номи сутуни марбут ба ин маълумот ба ягон "инкор" намеафтад рӯйхатҳо" , таснифгари қоида баландтарин холҳои муқарраршударо дар байни ҳамаи намудҳои маълумот интихоб мекунад.
Аз сабаби мураккабии тасниф, истифодаи эвристикаи сирф дастӣ ба дақиқии таснифот, махсусан барои маълумоти сохторнашуда оварда мерасонад. Аз ин сабаб, мо як системаи омӯзиши мошинро таҳия кардем, то бо таснифоти маълумоти сохторнашуда, ба монанди мундариҷа ва суроғаи корбар кор кунем. Омӯзиши мошинсозӣ ба мо имкон дод, ки аз эвристикаи дастӣ дур шавем ва сигналҳои иловагии маълумотро (масалан, номҳои сутун, пайдоиши маълумот) истифода барем, ки дақиқии муайянкуниро хеле беҳтар созем. Мо дертар ба меъмории омӯзиши мошинҳои худ ғарқ мешавем.
Хидмати пешгӯӣ натиҷаҳоро барои ҳар як сутун дар якҷоягӣ бо метамаълумот дар бораи вақт ва ҳолати скан нигоҳ медорад. Ҳама истеъмолкунандагон ва равандҳои поёноб, ки аз ин маълумот вобастаанд, метавонанд онро аз маҷмӯаи маълумоти ҳаррӯзаи нашршуда мутолиа кунанд. Ин маҷмӯа натиҷаҳои ҳамаи ин корҳои сканкунӣ ё каталоги додаҳои API-ро дар вақти воқеӣ ҷамъ меорад. Пешгӯиҳои нашршуда асос барои татбиқи автоматии сиёсати махфият ва амният мебошанд.
Ниҳоят, пас аз сабти хидмати пешгӯӣ ҳамаи маълумотҳо ва ҳама пешгӯиҳо захира карда мешаванд, API-и каталоги маълумотҳои мо метавонад ҳама пешгӯиҳои навъи маълумотро барои манба дар вақти воқеӣ баргардонад. Ҳар рӯз система маҷмӯи маълумотро нашр мекунад, ки дорои ҳама пешгӯиҳои охирин барои ҳар як дороиҳо мебошад.
Маълумоти ноустувор
Гарчанде ки раванди дар боло зикршуда барои дороиҳои доимӣ тарҳрезӣ шудааст, трафики доимӣ низ як қисми маълумоти созмон ҳисобида мешавад ва метавонад муҳим бошад. Аз ин сабаб, система API-и онлайнро барои тавлиди пешгӯиҳои таснифоти воқеӣ барои ҳама гуна трафики номунтазам таъмин мекунад. Системаи пешгӯии вақти воқеӣ дар таснифи трафики содиротӣ, трафики воридотӣ дар моделҳои омӯзиши мошинсозӣ ва маълумоти таблиғотӣ васеъ истифода мешавад.
Дар ин ҷо API ду далели асосиро мегирад: калиди гурӯҳбандӣ ва маълумоти хоми пешбинишаванда. Хидмат ҳамон истихроҷи хусусиятеро, ки дар боло тавсиф шудааст, иҷро мекунад ва хусусиятҳоро барои як калид гурӯҳбандӣ мекунад. Ин хусусиятҳо инчунин дар кэши доимӣ барои хатогӣ дастгирӣ карда мешаванд. Барои ҳар як калиди гурӯҳбандӣ, хидмат мувофиқи раванди дар боло тавсифшуда пеш аз занг задан ба хидмати пешгӯӣ намунаҳои кофӣ дидааст.
Аҳамиятнокӣ
Барои скан кардани баъзе анборҳо, мо китобхонаҳо ва усулҳои оптимизатсияи хониши нигаҳдории гармро истифода мебарем [2] ва боварӣ ҳосил мекунем, ки аз ҷониби корбарони дигар, ки ба як анбор дастрасӣ доранд, садамаҳо вуҷуд надоранд.
Барои ҷадвалҳои ниҳоят калон (50+ петабайт), сарфи назар аз ҳама оптимизатсияҳо ва самаранокии хотира, система пеш аз тамом шудани хотира ҳама чизро скан ва ҳисоб мекунад. Баъд аз ҳама, скан пурра дар хотира ҳисоб карда мешавад ва ҳангоми скан захира карда намешавад. Агар ҷадвалҳои калон ҳазорҳо сутунҳои дорои ҷамъҳои сохторнашудаи маълумот дошта бошанд, кор метавонад аз сабаби нокифоя будани захираҳои хотира ҳангоми пешгӯиҳо дар миқёси ҷадвал ноком шавад. Ин боиси кам шудани фарогирӣ мегардад. Барои мубориза бо ин, мо системаро оптимизатсия кардем, то суръати сканро ҳамчун прокси истифода барад, то система то чӣ андоза сарбории ҷорӣро идора мекунад. Мо суръатро ҳамчун механизми пешгӯӣ барои дидани масъалаҳои хотира ва ҳисобҳои харитаи пешгӯии хусусият истифода мебарем. Дар ин кор, мо аз маълумоти муқаррарӣ камтар истифода мебарем.
Инъекцияи додаҳо усулест, ки дар он аломатҳои махсус ва хонданашаванда қасдан ба манбаъҳои маълум бо намудҳои маълуми додаҳо ворид карда мешаванд. Сипас, вақте ки мо мундариҷаро бо ҳамон пайдарпаии аломатҳои хонданашаванда скан мекунем, мо метавонем хулоса барорем, ки мундариҷа аз он намуди маълуми додаҳо меояд. Ин боз як сигнали сифатии маълумотест, ки ба эзоҳҳо монанд аст. Ғайр аз он, кашфи мундариҷа дар кашф кардани маълумоти воридшуда кӯмак мекунад.
Андозаи метрикӣ
Ҷузъи муҳими методологияи дақиқи ченкунии ченакҳо мебошад. Меъёрҳои асосии итератсияи такмили таснифот дақиқӣ ва бозхонди ҳар як нишона мебошанд, ки холҳои F2 аз ҳама муҳиманд.
Ҳисоб кардани ин нишондиҳандаҳо методологияи мустақили тамғагузории дороиҳои маълумотро талаб мекунад, ки аз худи система мустақил аст, аммо метавонад барои муқоисаи мустақим бо он истифода шавад. Дар зер мо тавсиф мекунем, ки чӣ тавр мо ҳақиқати заминиро аз Facebook ҷамъоварӣ мекунем ва онро барои омӯзиши системаи таснифоти худ истифода мебарем.
Ҷамъоварии маълумоти боэътимод
Мо маълумоти дурустро аз ҳар як манбаи дар поён овардашуда дар ҷадвали худ ҷамъ меорем. Ҳар як ҷадвал барои ҷамъ кардани арзишҳои охирини мушоҳидашуда аз ин манбаи мушаххас масъул аст. Ҳар як манбаъ санҷиши сифати маълумот дорад, то боварӣ ҳосил кунад, ки арзишҳои мушоҳидашуда барои ҳар як манбаъ сифати баланд доранд ва тамғакоғазҳои навтарини навъи маълумотро дар бар мегиранд.
Конфигуратсияҳои платформаи сабт: Майдонҳои муайяни ҷадвалҳои қуттӣ бо маълумоте, ки навъи муайян доранд, пур карда мешаванд. Истифода ва паҳн кардани ин маълумот ҳамчун манбаи боэътимоди маълумоти боэътимод хизмат мекунад.
Мо ҳар як манбаи асосии маълумоти сахтро дар як корпус бо ҳамаи ин маълумот муттаҳид мекунем. Мушкилоти калонтарини эътиборнокӣ ин боварӣ ҳосил кардан аст, ки он намояндаи анбори додаҳо аст. Дар акси ҳол, муҳаррикҳои таснифӣ метавонанд аз ҳад зиёд мувофиқ бошанд. Дар мубориза бо ин, ҳамаи манбаъҳои дар боло зикршуда барои таъмини мувозинат ҳангоми омӯзиши моделҳо ё ҳисоб кардани метрика истифода мешаванд. Илова бар ин, аломатҳои инсонӣ сутунҳои гуногунро дар мағоза яксон интихоб мекунанд ва маълумотро ба таври мувофиқ нишон медиҳанд, то ҷамъоварии арзишҳои дуруст беғаразона боқӣ монанд.
Интегратсияи доимӣ
Барои таъмини такрори зуд ва такмилдиҳӣ, ҳамеша дар вақти воқеӣ чен кардани кори система муҳим аст. Мо метавонем ҳар як беҳбудии таснифро дар муқоиса бо системаи имрӯза чен кунем, аз ин рӯ мо метавонем маълумоти тактикиро барои беҳбудии минбаъда равона кунем. Дар ин ҷо мо мебинем, ки чӣ тавр система ҳалқаи фикру мулоҳизаро, ки бо маълумоти дуруст таъмин карда мешавад, анҷом медиҳад.
Вақте ки системаи банақшагирӣ бо дороие дучор мешавад, ки аз манбаи боэътимод нишона дорад, мо ду вазифаро ба нақша мегирем. Аввалин сканери истеҳсолии мо ва аз ин рӯ, қобилиятҳои истеҳсолии моро истифода мебарад. Вазифаи дуюм сканери навтаринро бо хусусиятҳои навтарин истифода мебарад. Ҳар як вазифа натиҷаи худро ба ҷадвали худ менависад ва версияҳоро дар баробари натиҷаҳои таснифот нишон медиҳад.
Ҳамин тавр мо натиҷаҳои таснифоти номзади релиз ва модели истеҳсолиро дар вақти воқеӣ муқоиса мекунем.
Ҳангоме ки маҷмӯаҳои додаҳо хусусиятҳои RC ва PROD-ро муқоиса мекунанд, вариантҳои зиёди хидмати пешгӯии муҳаррики таснифоти ML сабт карда мешаванд. Модели охирини омӯзиши мошинсозӣ, модели ҷорӣ дар истеҳсолот ва ҳама гуна моделҳои таҷрибавӣ. Ҳамин равиш ба мо имкон медиҳад, ки версияҳои гуногуни моделро "бурида" (ба таснифкунандагони қоидаҳои мо агностикӣ) ва муқоисаи ченакҳоро дар вақти воқеӣ. Муайян кардан хеле осон аст, ки таҷрибаи ML кай ба истеҳсолот омода аст.
Ҳар шаб, хусусиятҳои RC, ки барои он рӯз ҳисоб карда шудаанд, ба лӯлаи омӯзишии ML фиристода мешаванд, ки дар он модел дар бораи хусусиятҳои навтарини RC таълим дода мешавад ва иҷрои онро дар муқоиса бо маҷмӯи додаҳои дуруст арзёбӣ мекунад.
Ҳар саҳар модел омӯзишро анҷом медиҳад ва ба таври худкор ҳамчун модели таҷрибавӣ нашр мешавад. Он ба таври худкор ба рӯйхати таҷрибавӣ дохил карда мешавад.
Баъзе натиҷаҳо
Зиёда аз 100 намуди гуногуни маълумот бо дақиқии баланд қайд карда шудаанд. Намудҳои хуби сохторӣ ба монанди почтаи электронӣ ва рақамҳои телефон бо холҳои f2 аз 0,95 зиёдтар тасниф карда мешаванд. Намудҳои ройгони додаҳо ба монанди мундариҷаи фармоишӣ ва ном низ хеле хуб кор мекунанд, бо холҳои F2 аз 0,85 зиёдтар.
Миқдори зиёди сутунҳои мушаххаси маълумоти устувор ва доимӣ ҳамарӯза дар тамоми анборҳо тасниф карда мешаванд. Ҳар рӯз зиёда аз 500 терабайт дар зиёда аз 10 мағозаи маълумот скан карда мешавад. Фарогирии аксари ин анборҳо зиёда аз 98% -ро ташкил медиҳад.
Бо гузашти вақт, таснифкунӣ хеле муассир гардид, зеро корҳои таснифкунӣ дар ҷараёни доимии офлайнӣ аз сканкунии дороиҳо то пешгӯиҳои ҳисоббарорӣ барои ҳар як сутун ба ҳисоби миёна 35 сонияро мегирад.
Райс. 2. Диаграммаи тавсифи ҷараёни муттасили ҳамгироӣ барои фаҳмидани он ки объектҳои RC чӣ гуна тавлид мешаванд ва ба модел фиристода мешаванд.
Дар фасли қаблӣ, мо ба меъмории тамоми система ғарқ шуда, миқёс, оптимизатсия ва ҷараёнҳои офлайн ва онлайнро таъкид кардем. Дар ин бахш, мо хидмати пешгӯиро дида мебароем ва системаи омӯзиши мошинро тавсиф мекунем, ки хидмати пешгӯиро тақвият медиҳад.
Бо зиёда аз 100 намуди додаҳо ва баъзе мундариҷаи сохторнашуда, аз қабили маълумоти пост ва мундариҷаи аз ҷониби корбар тавлидшуда, истифодаи эвристикаи сирф дастӣ ба дақиқии таснифоти зерпараметрӣ, махсусан барои додаҳои сохторнашуда оварда мерасонад. Аз ин сабаб, мо инчунин як системаи омӯзиши мошинро таҳия кардем, то бо мураккабии маълумоти сохторнашуда мубориза барем. Истифодаи омӯзиши мошинсозӣ ба шумо имкон медиҳад, ки аз эвристикаи дастӣ дур шавед ва бо хусусиятҳо ва сигналҳои иловагии додаҳо (масалан, номҳои сутун, пайдоиши маълумот) барои беҳтар кардани дақиқӣ кор кунед.
Модели амалишуда намоишҳои векториро [3] дар болои объектҳои зиччи ва пароканда алоҳида меомӯзад. Пас аз он онҳо як вектореро ташкил медиҳанд, ки аз як қатор нормализатсияи партия [4] ва қадамҳои ғайрихаттӣ барои ба даст овардани натиҷаи ниҳоӣ мегузарад. Натиҷаи ниҳоӣ рақами нуқтаи шинокунанда байни [0-1] барои ҳар як нишона мебошад, ки эҳтимолияти ба ин навъи ҳассосият тааллуқ доштани мисолро нишон медиҳад. Истифодаи PyTorch барои модел ба мо имкон дод, ки зудтар ҳаракат кунем ва ба таҳиягарон берун аз даста имкон дод, ки тағиротро зуд ворид ва озмоиш кунанд.
Ҳангоми тарҳрезии меъморӣ аз сабаби тафовути дохилии объектҳои камёфт (масалан, матн) ва зич (масалан, ададӣ) алоҳида модел кардан муҳим буд. Барои меъмории ниҳоӣ инчунин муҳим буд, ки тозакунии параметрҳо барои дарёфти арзиши оптималии суръати омӯзиш, андозаи партия ва гиперпараметрҳои дигар. Интихоби оптимизатор низ як гиперпараметри муҳим буд. Мо дарёфтем, ки оптимизатори маъмул Одамаксар вақт боиси overfitting, дар ҳоле ки модели бо SGD устувортар. Нозукиҳои иловагӣ буданд, ки мо бояд бевосита ба модел дохил кунем. Масалан, қоидаҳои статикӣ, ки кафолат медоданд, ки модел пешгӯии детерминалистиро ҳангоми доштани хусусият арзиши муайян мекунад. Ин қоидаҳои статикӣ аз ҷониби мизоҷони мо муайян карда мешаванд. Мо дарёфтем, ки ворид кардани онҳо мустақиман ба модел як меъмории мустақилтар ва мустаҳкамтар мешавад, дар муқоиса бо татбиқи як қадами пас аз коркард барои коркарди ин ҳолатҳои махсуси канорӣ. Инчунин қайд кунед, ки ин қоидаҳо ҳангоми омӯзиш ғайрифаъол карда мешаванд, то ба раванди омӯзиши градиент халал нарасонанд.
Масъалаҳо
Яке аз мушкилот ҷамъоварии маълумоти баландсифат ва боэътимод буд. Модел ба эътибори ҳар як синф ниёз дорад, то он метавонад ассотсиатсияҳоро байни объектҳо ва нишонаҳо омӯзад. Дар фасли қаблӣ мо усулҳои ҷамъоварии маълумотро ҳам барои андозагирии система ва ҳам омӯзиши модел баррасӣ кардем. Таҳлил нишон дод, ки синфҳои маълумот ба монанди корти кредитӣ ва рақамҳои суратҳисоби бонкӣ дар анбори мо чандон маъмул нестанд. Ин ҷамъ овардани миқдори зиёди маълумоти боэътимодро барои омӯзиши модел мушкил месозад. Барои ҳалли ин мушкилот, мо равандҳои тавлиди маълумотҳои синтетикиро барои ин синфҳо таҳия кардем. Мо чунин маълумотро барои намудҳои ҳассос тавлид мекунем, аз ҷумла NHS, рақамҳои корти кредитӣ и IBAN-рақамҳое, ки модел қаблан онҳоро пешгӯӣ карда наметавонист. Ин равиш имкон медиҳад, ки намудҳои ҳассоси додаҳо бидуни хатари махфият, ки бо пинҳон кардани маълумоти ҳассос алоқаманданд, коркард карда шаванд.
Илова ба масъалаҳои эътимоднокии додаҳо, масъалаҳои меъмории кушода мавҷуданд, ки мо дар рӯи он кор мекунем, ба монанди изолятсияро тағир диҳед и боздоштани барвақт. Ҷудокунии тағирот муҳим аст, то вақте ки тағиротҳои гуногун ба қисмҳои гуногуни шабака ворид карда шаванд, таъсир ба синфҳои мушаххас ҷудо карда мешавад ва ба иҷрои умумии пешгӯӣ таъсири васеъ нарасонад. Такмили меъёрҳои боздоштани бармаҳал низ муҳим аст, то мо тавонем раванди таълимро дар як нуқтаи устувор барои ҳама синфҳо қатъ кунем, на дар он ҷое, ки баъзе синфҳо бозомӯзӣ мекунанд ва дигарон не.
Аҳамияти хусусият
Вақте ки хусусияти нав ба модел ҷорӣ карда мешавад, мо мехоҳем, ки таъсири умумии он ба моделро бидонем. Мо инчунин мехоҳем боварӣ ҳосил кунем, ки пешгӯиҳо ба одамон тафсир карда мешаванд, то бифаҳмем, ки кадом хусусиятҳо барои ҳар як намуди маълумот истифода мешаванд. Бо ин максад мо кор карда баромадем ва чорй намудем аз рӯи синф аҳамияти хусусиятҳо барои модели PyTorch. Аҳамият диҳед, ки ин аз аҳамияти хусусияти умумӣ фарқ мекунад, ки одатан дастгирӣ мешавад, зеро он ба мо намегӯяд, ки кадом хусусиятҳо барои синфи мушаххас муҳиманд. Мо аҳамияти объектро тавассути ҳисоб кардани афзоиши хатогии пешгӯӣ пас аз иваз кардани объект чен мекунем. Хусусият "муҳим" аст, вақте ки иваз кардани арзишҳо хатогии моделро зиёд мекунад, зеро дар ин ҳолат модел дар пешгӯии худ ба хусусият такя мекард. Аломат "муҳим нест" вақте ки омехта кардани арзишҳои он хатогии моделро бетағйир мегузорад, зеро дар ин ҳолат модел онро сарфи назар кардааст [5].
Аҳамияти хусусият барои ҳар як синф ба мо имкон медиҳад, ки моделро тафсир кунем, то мо бубинем, ки модел ҳангоми пешгӯии тамға ба чӣ диққат медиҳад. Масалан, вақте ки мо таҳлил мекунем ADDR, он гоҳ мо кафолат медиҳем, ки атрибути марбут ба суроға, ба монанди AddressLinesCount, дар ҷадвали аҳамияти хусусият барои ҳар як синф мавқеи баландро ишғол мекунад, то интуитсияи инсонии мо бо он чизе, ки модел омӯхтааст, мувофиқат кунад.
баҳодиҳӣ
Муҳим аст, ки як нишондиҳандаи ягона барои муваффақият муайян карда шавад. Мо интихоб кардем F2 - мувозинат байни бозхонд ва саҳеҳӣ (ғарази бозхонд каме калонтар аст). Бекоркунӣ барои парвандаи истифодаи махфият назар ба дақиқӣ муҳимтар аст, зеро барои даста муҳим аст, ки ягон маълумоти ҳассосро аз даст надиҳад (дар ҳоле ки дақиқии оқилона нигоҳ дошта мешавад). Холи воқеии иҷрои F2 модели мо аз доираи ин мақола берун аст. Бо вуҷуди ин, бо танзими бодиққат мо метавонем ба дараҷаи баланди (0,9+) F2 барои синфҳои муҳимтарини ҳассос ноил шавем.
Корҳои марбут
Барои таснифоти автоматии ҳуҷҷатҳои сохторнашуда алгоритмҳои зиёде мавҷуданд, ки бо истифода аз усулҳои гуногун, аз қабили мувофиқати намуна, ҷустуҷӯи шабоҳати ҳуҷҷатҳо ва усулҳои гуногуни омӯзиши мошинсозӣ (Байезӣ, дарахтони қарорҳо, k-наздиктарин ҳамсояҳо ва бисёр дигарон) [6]. Ҳар яке аз инҳоро метавон ҳамчун як қисми тасниф истифода бурд. Бо вуҷуди ин, мушкилот миқёспазирӣ аст. Равиши таснифот дар ин мақола ба чандирӣ ва иҷроиш ғаразнок аст. Ин ба мо имкон медиҳад, ки дар оянда синфҳои навро дастгирӣ кунем ва таъхирро паст нигоҳ дорем.
Дэвид Бен-Дэвид, Тамар Домани ва Абиҷайл Тарем. Таснифи маълумоти корхона бо истифода аз технологияҳои семантикии веб. Дар Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, and Birte Glimm, муҳаррирон, Веби семантикӣ - ISWC 2010, саҳифаҳои 66–81, Берлин, Ҳейделберг, 2010. Springer Berlin Heidelberg.