🥇Како је Гоогле БигКуери демократизовао анализу података. Парт 2

Здраво, Хабр! Упис за нови стрим курса је тренутно отворен на ОТУС-у Дата Енгинеер. У ишчекивању почетка курса, настављамо да делимо користан материјал са вама.

Прочитај први део

Управљање подацима

Снажно управљање подацима је основни принцип Твиттер инжењеринга. Док имплементирамо БигКуери у нашу платформу, фокусирамо се на откривање података, контролу приступа, безбедност и приватност.

Да бисмо открили и управљали подацима, проширили смо наш слој приступа подацима на ДАЛ) да обезбеди алатке за локалне и Гоогле Цлоуд податке, пружајући јединствен интерфејс и АПИ за наше кориснике. Као Гоогле Каталог података креће ка општој доступности, ми ћемо га укључити у наше пројекте како бисмо корисницима пружили функције као што је претрага колона.

БигКуери олакшава дељење и приступ подацима, али смо морали да имамо одређену контролу над овим да бисмо спречили ексфилтрацију података. Између осталих алата, одабрали смо две функције:

Дељење ограничено на домен: Бета функција која спречава кориснике да деле БигКуери скупове података са корисницима ван Твиттер-а.
Контроле ВПЦ услуга: Контрола која спречава ексфилтрацију података и захтева од корисника да приступе БигКуери-ју из познатих опсега ИП адреса.

Имплементирали смо захтеве за проверу аутентичности, ауторизације и ревизије (ААА) за безбедност на следећи начин:

Потврда аутентичности: Користили смо ГЦП корисничке налоге за ад хоц захтеве и услужне налоге за производне захтеве.
Овлашћење: Захтевали смо да сваки скуп података има налог за услугу власника и групу читача.
Ревизија: Извезли смо БигКуери евиденције стацкдривера, које су садржале детаљне информације о извршавању упита, у БигКуери скуп података ради једноставне анализе.

Да бисмо осигурали да се личним подацима корисника Твиттер-а рукује на прави начин, морамо регистровати све БигКуери скупове података, записати личне податке, одржавати одговарајуће складиштење и избрисати (сцрапе) податке које су корисници избрисали.

Погледали смо Гугл АПИ за спречавање губитка података у облаку, који користи машинско учење за класификацију и уређивање осетљивих података, али се одлучио за ручно означавање скупа података због тачности. Планирамо да користимо АПИ за спречавање губитка података да бисмо повећали прилагођену напомену.

На Твиттер-у смо направили четири категорије приватности за скупове података у БигКуери-ју, наведене овде у опадајућем редоследу осетљивости:

Веома осетљиви скупови података се стављају на располагање по потреби на основу принципа најмање привилегија. Сваки скуп података има посебну групу читача, а ми ћемо пратити коришћење по појединачним налозима.
Скупови података средње осетљивости (једносмерни псеудоними који користе засољено хеширање) не садрже личне информације (ПИИ) и доступни су већој групи запослених. Ово је добар баланс између забринутости за приватност и корисности података. Ово омогућава запосленима да обављају задатке анализе, као што је израчунавање броја корисника који су користили функцију, а да не знају ко су прави корисници.
Скупови података ниске осетљивости са свим информацијама које идентификују корисника. Ово је добар приступ из перспективе приватности, али се не може користити за анализу на нивоу корисника.
Јавни скупови података (објављени ван Твитера) доступни су свим запосленима на Твиттер-у.

Што се тиче евидентирања, користили смо заказане задатке да набројимо БигКуери скупове података и региструјемо их у слоју приступа подацима (ДАЛ), Твиттер спремиште метаподатака. Корисници ће анотирати скупове података информацијама о приватности и такође одредити период чувања. Што се тиче чишћења, процењујемо перформансе и цену две опције: 1. Чишћење скупова података у ГЦС помоћу алата као што је Сцалдинг и њихово учитавање у БигКуери; 2. Коришћење БигКуери ДМЛ изјава. Вероватно ћемо користити комбинацију обе методе да бисмо испунили захтеве различитих група и података.

Функционалност система

Пошто је БигКуери услуга којом се управља, није било потребе да се Твитеров СРЕ тим укључи у управљање системима или послове на столу. Било је лако обезбедити више капацитета и за складиштење и за рачунаре. Могли бисмо да променимо резервацију места тако што ћемо направити карту са Гоогле подршком. Идентификовали смо области које би могле да се побољшају, као што су самоуслужна додела места и побољшања контролне табле за праћење, и послали те захтеве Гоогле-у.

Коштати

Наша прелиминарна анализа је показала да су трошкови упита за БигКуери и Престо били на истом нивоу. Купили смо слотове за фиксне цена да има стабилан месечни трошак уместо плаћања на захтев по ТБ обрађених података. Ова одлука је такође заснована на повратним информацијама корисника који нису желели да размишљају о трошковима пре сваког захтева.

Чување података у БигКуери-ју донело је трошкове поред ГЦС трошкова. Алати као што је Сцалдинг захтевају скупове података у ГЦС-у, а да бисмо приступили БигКуери-ју морали смо да учитамо исте скупове података у БигКуери формат Кондензатор. Радимо на Сцалдинг вези са БигКуери скуповима података која ће елиминисати потребу за складиштењем скупова података у ГЦС и БигКуери.

За ретке случајеве који су захтевали ретке упите од десетина петабајта, одлучили смо да складиштење скупова података у БигКуери-ју није исплативо и користили смо Престо за директан приступ скуповима података у ГЦС-у. Да бисмо то урадили, гледамо БигКуери екстерне изворе података.

Следећи кораци

Видели смо велико интересовање за БигКуери од алфа издања. Додајемо још скупова података и више команди у БигКуери. Развијамо конекторе за алате за анализу података као што је Сцалдинг за читање и писање у БигКуери складиште. Разматрамо алате као што су Лоокер и Апацхе Зеппелин за креирање извештаја и белешки квалитета предузећа користећи БигКуери скупове података.

Наша сарадња са Гоогле-ом је била веома продуктивна и драго нам је што настављамо и развијамо ово партнерство. Радили смо са Гоогле-ом на имплементацији сопственог Партнер Проблем Трацкерда шаљете упите директно Гоогле-у. Неке од њих, као што је БигКуери утоваривач паркета, Гоогле је већ имплементирао.

Ево неких од наших захтева за функције високог приоритета за Гоогле:

Алати за згодан пријем података и подршку за ЛЗО-Тхрифт формат.
Сегментација по сату
Побољшања контроле приступа као што су дозволе на нивоу табеле, реда и колоне.
БигКуери Екстерни извори података са Хиве Метасторе интеграцијом и подршком за ЛЗО-Тхрифт формат.
Побољшана интеграција каталога података у БигКуери кориснички интерфејс
Самопослуживање за доделу слотова и праћење.

Закључак

Демократизација аналитике података, визуелизације и машинског учења на безбедан начин је главни приоритет тима за Дата Платформу. Идентификовали смо Гоогле БигКуери и Дата Студио као алате који би могли да помогну у постизању овог циља и објавили смо БигКуери Алпха за целу компанију прошле године.

Утврдили смо да су упити у БигКуери-ју једноставни и ефикасни. Користили смо Гоогле алате за унос и трансформацију података за једноставне цевоводе, али за сложене цевоводе морали смо да изградимо сопствени оквир Аирфлов. У простору за управљање подацима, БигКуери услуге за аутентификацију, ауторизацију и ревизију задовољавају наше потребе. Да бисмо управљали метаподацима и одржавали приватност, била нам је потребна већа флексибилност и морали смо да изградимо сопствене системе. БигКуери, као сервис којим се управља, био је једноставан за коришћење. Трошкови упита били су слични постојећим алатима. Чување података у БигКуери-ју подразумева трошкове поред ГЦС трошкова.

Све у свему, БигКуери добро функционише за општу СКЛ анализу. Примећујемо велико интересовање за БигКуери и радимо на томе да мигрирамо више скупова података, доведемо више тимова и изградимо више цевовода са БигКуери-јем. Твиттер користи разне податке који ће захтевати комбинацију алата као што су Сцалдинг, Спарк, Престо и Друид. Намеравамо да наставимо да јачамо наше алате за анализу података и пружамо јасне смернице нашим корисницима о томе како да најбоље искористе нашу понуду.

Речи захвалности

Желео бих да се захвалим својим коауторима и саиграчима, Ању Џа и Вилу Паскучију, на њиховој сјајној сарадњи и напорном раду на овом пројекту. Такође бих желео да се захвалим инжењерима и менаџерима из неколико тимова на Твиттер-у и Гоогле-у који су помогли нама и БигКуери корисницима на Твиттер-у који су дали вредне повратне информације.

Ако сте заинтересовани да радите на овим проблемима, погледајте наше радна места у тиму Дата Платформе.

Квалитет података у ДВХ - Конзистентност складишта података

Извор: ввв.хабр.цом