αα½ααααΈ α αΆα! ααΆαα α»αααααααααααΆαααααααα·ααααΆααααΈααΊααΎαα₯α‘αΌαααααα OTUS . αα αααα»αααΆαααααΉααα»αααααΆαα αΆααααααΎααααααααα·ααααΆααα ααΎαααΆααααα αααΆαααααααΈααΌαααΆααααααααααααααΆααααααα½αα±ααα αΆααα’αΆαααααααααααΆααα’αααα
ααΆαααααΆαααααα ααα»αααααΆααα½αααααΆαααΆααααΆαα αΌαααΎα Twitter ααΎααααΈαααααααα’αααΈααααααα»αααΎαα‘αΎααα αααα»ααα·ααααα α αΎααα·ααΆααααΆα’αααΈααΆα ααΆαα tweet αα·αααΆαααααααααΆαααααα’αααααααΎαααααααααααααΎαααααΉαααα·ααΆααααα½ααααααΆααααααΆααααΆααα·ααΆααα·ααααααααΆααααα»ααααα Twitter α αα»ααααα·αααΆααααααΆαααα·ααΆα αα·αααΎαααΎααα·ααααααααα α αΎαααΆααααααα’αααα·ααααααααααα½αααααΊααΆα’αΆαα·ααΆαα αααααααααΆαααααα»α Twitter Data Platform α
ααΎαααΏααΆααααΆ α’αααααααΎααααΆαααααααΆαααααΆααα αα ααααααααΆαααΌααααΌααΆα αα½αααα’αΆα ααααααααα·αααααα αα·αα’αΆα α αΌαααααΎα§ααααααα·ααΆα αα·αααΌαααΆααααααα’ααααΎ SQL αααααααΎαααΆαααΆαααα’α αααααΉαα’αα»ααααΆαα±αααααα»αααααΈααΆααααΌαααα’αααααααΎααααΆαααα αα ααααααα·α αα½αααΆααα’ααααα·ααΆααα·αααααα αα·αα’ααααααααααααααα·ααα ααΆαααααΆααααααΉαααΈαα·αααααα αααα’αα»ααααΆαα±αααα½ααααααααΆααααα αααΆαα αα·αααααΎααααΆαααααααααΆααααα Twitter α αααααΆαααααααααΎαααααΎαααααΆαα·ααααααααΆααα·ααΆααα·αααααααα ααΎ Twitter α
αααααΆαα§ααααα αα·ααααααααΆααα·ααΆααα·ααααααααΆααααα»αααααααΎαααΆαααΆααααααΎαα‘αΎα ααΎαααΆαααΎα Twitter αααααΎαα‘αΎαα ααααααΆαααΆααααααα ααααΆααααααααααααΆαααααααα’α α§ααααααα αα α»ααααααααΌα ααΆ Scalding ααααΌαααΆααααα·αααααααααααααααα·ααΈα α§ααααααα·ααΆααααααΆαααΌαααααΆαααΎ SQL ααΌα ααΆ Presto αα·α Vertica ααΆααααα αΆααααΎαααΆαααΆαααΆαααααααΆαα ααΎαβααβααΆαβαααα αΆβαααα»αβααΆαβα ααα αΆαβαα·ααααααβαα βααΌααΆααβααααααααβα αααΎαβαααβαα·αβααΆαβααΆαβα αΌαβααααΎααααΆααβααΆβααΆβαααα αΆαα
ααΆαααΈααααΆααα»αααΎαααΆααααααΆα ααααααα»ααααααΎαααααααααααααααααααααΎαα αα ααΎ Google Cloud Platform (GCP) α ααΎαααΆαααααα·ααααΆαααΆα§ααααα Google Cloud α’αΆα αα½αααΎαααΆαα½αααΉαααΆααααα½α ααααΎαααααααΎαααΎααααΈααααΎαααααΆαα·ααααααααΆααα·ααΆα ααΆαααΎαααΎα αα·αααΆαααααααΆαααΈααα ααΎ Twitterα
- α ααααΆαααα·αααααααα ααααΆααααααΆααααΆαααΈα SQL ααα’ααααΎ αααααααΈααααΆααααααΆααααααΏα ααΆαααΆαααα αα·αα’αΆα ααααααααΆαα .
- α§αααααααΎαααΎααα·ααααααααααΆαα½αααΉααα»αααΆααα ααΆαααΌα Google Docs α
αα αααα»αα’αααααααα α’αααααΉααααα’αααΈαααα·αααααααααααΎαααΆαα½αααΉαα§αααααααΆαααααα α’αααΈαααααΎαααΆαααααΎ α’αααΈαααααΎαααΆαααα αα·αα’αααΈαααααΎαααΉαααααΎαααααΆαααααα α₯α‘αΌααααααΎαααΉααααααααΎααΆααα·ααΆαααΆααΆα α αα·αα’ααααααααα ααΎαααΉααα·ααΆααααΆα’αααΈααΆααα·ααΆααααααααΆααΆααααααααα αααα»αα’ααααααααααΆααα
αααααααα·ααα αΆααα·αααααα Twitter
αα»ααααα αΌααα αααα»α BigQuery ααΆααΆααααααααααΉαα‘αΎααα·ααααΆαααααΈα’αααΈαααααααα·ααααααΆαααα·αααααα Twitter α αααα»αααααΆα 2011 ααΆααα·ααΆααα·αααααα Twitter ααααΌαααΆαα’αα»αααααα αααα»α Vertica αα·α Hadoop α ααΎαααΆαααααΎ Pig ααΎααααΈαααααΎαααΆαααΆα MapReduce Hadoop α αααα»αααααΆα 2012 ααΎαααΆααααα½α Pig ααΆαα½α Scalding αααααΆα Scala API ααΆαα½αααΉαα’αααααααααααααΌα ααΆαααααααΆααααα»αααΆααααααΎαααααααααα»αααααΆα αα·αααΆαααΆααααα½αααααΆαααααΎαααααα ααααααΆαααΆααααα αααααΆααα’ααααα·ααΆααα·αααααα αα·αα’ααααααααααααααα·αααααΆα αααΎααααααΆαααΆαα»αααΆααααα»αααΆαααααΎααΆαααΆαα½α SQL ααΆααΊααΆαααααααααααΆααααααΌαααααα ααα αααα ααααααΆα 2016 ααΎαααΆαα αΆααααααΎαααααΎ Presto ααΆα ααα»α αααααΆαα SQL αα ααΆαααα·αααααα Hadoop α Spark αααααααΌαααΌαα ααα»α αααααΆαα Python αααααααΎα±ααααΆααααΆαααΆαααααΎαααααα’αααααΆαααα·ααααΆααΆααααααα·αααααα αα·αααΆααα·ααααΆααααααΆαααΈαα
α αΆααααΆααααΈααααΆα 2018 αα ααΎαααΆαααααΎααααΆααα§αααααααΆαααααααααααΆααααΆααα·ααΆααα·αααααα αα·αααΆαααΎαααΎαααΌαααΆαα
- Scalding αααααΆαα conveyors ααα·ααααα
- Scalding and Spark αααααΆααααΆααα·ααΆααα·αααααα ad hoc αα·αααΆαααααααΆαααΈα
- Vertica αα·α Presto αααααΆαα ad hoc αα·αααΆααα·ααΆα SQL α’αααααααα
- Druid αααααΆααααΆαα αΌαααααΎα’ααααααααααΆα ααΆααα»ααα αα·αααΆαααΊααααΆαααΆαα αααααααααΆαααααααΈαααααααΆ
- Tableau, Zeppelin αα·α Pivot αααααΆααααΆαααΎαααΎααα·αααααα
ααΎαααΆαααααΎαααΆ αααααααααα§αααααααΆααααααααααααΌααααααααΆαααααΆαα ααΎαααΆαααΆαααααΆααααα»αααΆαααααΎα±αααααααααΆαααΆαααααα’αΆα ααααΆααααααΆαααααααα·αααααΆααααααΌααααΌααΆααα ααΎ Twitter α ααΆααααααΆααααααΈααααα·ααΆααααααΎαααΆαα½α Google Cloud ααΎααααα»ααααααααΎααΆαααααΎα±ααα§ααααααα·ααΆαααααααΎαααΆααααα½ααααααΆαα Twitter ααΆααα’ααα
ααααΆαααα·αααααα BigQuery αααα Google
αααα»αααΆα αααΎααα Twitter ααΆαααΆαααααα αΌα BigQuery αα αααα»ααααααααα·ααααααααααα½ααααα½α α αΎαα αααααααΎααααΆααααααα½ααα ααΎαααΆαα αΆααααααΎαααΆαααααααααααααΆααααα BigQuery αααααΆααααααΈααααΎααααΆαα Twitter ααΆααα’ααα ααααα ααααααΎαααΊαααααααΌα BigQuery ααααααα»αα αα»αααΆααααΌα α αΎαααααΎαααααααΆα αα·αααΆααααααΆαα αααα»ααααα»αα§ααααα Data Platform α αααααΊαα·ααΆααααααΆααα ααα»ααααΆα αααΎαα ααΎαα αΆαααΆα αααααΌαα’αα·ααααα αααααΆαα ααΆαααααααααα½αααΎααααΈα’αΆα ααΏαα»αα α·αααααΆαααΌαααα·ααΆααααααααα·αααααα ααΆααααααΆαααααααααααα·ααααααααΌααΆαααααα»αα αα»α ααΆααΆααΆαααΌαααΆααααααααααααΆαα αΌαααααΎααααΆααααΆαααααΉαααααΌα αα·αααΆααΆααΆαα―αααααααα’αα·αα·ααα ααΎαααααααΌααααααΎααααααααααααααΆααααΆααααα ααααααΆα ααΆααααα½ααα·αα·ααα αα·αααΆααα·αααααΆαααααα‘αααααα·α ααΎααααΈα±αααααα»αα’αΆα ααααΎααααΆαα BigQuery ααααααααααααα·αααααΆαα
αα αααα»ααααα·α ααα·ααΆ ααααΆα 2018 ααΎαααΆαα ααααααΆαααΆαα ααααααΆαα’αΆααα αααΆααΌααΆαααααα»αα αα»ααα BigQuery αα·α Data Studio α ααΎααααααααΌααα»ααααα·α Twitter αα½αα ααα½αααααααα αααααΈαααααααΎααΉαααΆαααααα»αααααααΎαααΆαα½αααΉαααΆααααα’αΆααα·ααααααααααΆαααααα½αα BigQuery ααααΌαααΆαααααΎααααΆαααααα’αααααααΎααααΆααααΆα 250 ααΆααααααΈαααα»αααααααααααΆ αα½αααΆαααα·ααααααα α α·ααααααααα» αα·αααΈααααΆαα ααααΈαααα αα½ααααααα»αααααΎαααΆαααααΎαααα αα 8k ααααΎαααΆααααα αα 100 PB αααα»ααα½ααα ααααα·αααΆαααααα αΌαααααΎαααααΆααααααααααααααα αααααΆααααΈααα½αααΆαααα·αααααα’ααΆαα·αααααΆα ααΎαααΆααααααα α α·αααααααααα αα»α αα·ααααααααΌα BigQuery ααΆααααΆαα αααααααααΆααααΆαααααΎα’ααααααααααΆαα½ααα·αααααααα ααΎ Twitter α
αααααΊααΆααααΆααααΆαααααα·ααααααααααααΆααααααααααααΆαααα·αααααα Google BigQuery ααααααΎαα

ααΎαα
αααααα·ααααααααΈαααα»α Hadoop αα
ααΉααααααααα
Google Cloud Storage (GCS) αααααααΎα§ααααα Cloud Replicator ααΆααααα»αα αααααΆααααααΎαααααΎ Apache Airflow ααΎααααΈαααααΎαααααααααααααΎ "Β» ααΎααααΈαααα»ααα·ααααααααΈ GCS αα
αααα»α BigQuery α ααΎαααααΎ Presto ααΎααααΈααΆααα½ααααα»ααα·αααααα Parquet α¬ Thrift-LZO αα
αααα»α GCS α BQ Blaster ααΊααΆα§ααααα Scalding ααΆααααα»ααααααΆαααααα»ααααα»ααα·αααααα HDFS Vertica αα·α Thrift-LZO α
αΌααα
αααα»α BigQuery α
αα αααα»ααααααααΆαααααα ααΎααα·ααΆααααΆα’αααΈαα·ααΈααΆααααα αα·αααααΆαααααααΎααααα»ααααααααααΆαααΆααααα½αααααΆαααααΎααααΆαα ααΆαα’αα»αααα ααΆαααααααααααα·αααααα αα»αααΆααααααααα αα·ααααααα
ααΆαααΆααααα½αααααΆαααααΎααααΆαα
ααΎαααΆαααααΎαααΆααΆααΆααααα½ααααααΆααα’αααααααΎααααΆαααααα»αααΆαα αΆααααααΎαααΆαα½α BigQuery αααααααΆαα·αααααΌαααΆαααΆαααα‘αΎααααααα·ααΈαα α αΎαα’αααααααΎααααΆααα’αΆα α αΌαααααΎααΆααΆαααΆααααα ααα»α αααααΆααααα αααααααααα·α αΆααααΆαα αααααΆαααΆαααΆααααα α’αααααααΎααααΆααα αΆαααΆα αααααΌαααααΆαααααααα αα·ααααα·ααα½αα ααα½ααααα GCP αα½αααΆααααααΆαααΌα ααΆαααααα αααα»ααα·αααααα αα·αααΆααΆαα ααΎαααΆααααααΎαα―αααΆαα’αααα αα·αααΆαααααααααΎααααΈαα½αα’αααααααΎααααΆααα αΆααααααΎαα ααΆαα½αααΉαααΆααααααΉαααΆααΌαααααΆααααααα½αααΆα α’αααααααΎααααΆααααΆαααααΎαααΆααΆααΆααααα½ααααα»αααΆααα»ααααααα»ααα·αααααα ααΎααααααααΆααα αα·ααα·ααααααααΆααΆα ααααΎαααΆααααα½αααΆαααα αα·αααΎαααΎααααααααα αααα»α Data Studioα
ααααα ααααααΎααααααΆααααΆααααα αΌααα·αααααααα αααα»α BigQuery ααΊααΎααααΈααΎαααααΎαααΆααααα»ααααα»ααα·αααααα HDFS α¬ GCS αααα α»α ααααααα ααΎαααΆααα·α αΆαααΆ (αααααααααααα Airflow) ααα»αααααα·αα’αΆα ααααΎααΆααΆααα αααααΆαααααΌαα»ααααα·ααΆαααααΆαα ααααααα Domain Restricted Sharing (ααααααααΎαααα αΆααααα αααα»ααααααααααααααααα·ααααααααΆαααααα)α ααΎαααΆαααΆαααααααααΎααααΆααααααΆααααααααααα·αααααα Google (DTS) ααΎααααΈαααα αααααα»αααΆαααΆα BigQuery α ααααααααα DTS ααΆαααΆααα αααα α½ααααα»αααΆααααα α ααΆαα·αααΆαααΆααααααααααααΆααααΆαααΆααααααααααααααΆαααΆαα’αΆαααααα αααααΆααααΆαα ααααααΆαα’αΆααα αααΆααααααΎα ααΎαααΆααααΆαααααααααα Apache Airflow ααααΆαααααα½αααααααΎααα αααα»α GCE α αΎααααα»ααααα αααΆα±ααααααΎαααΆααα αααα»αααα·ααααα αα·αα’αΆα ααΆααααααααααα·αααααααααααααααααΌα ααΆ Vertica ααΆααΎαα
ααΎααααΈααααααααα·αααααααα ααΆ BigQuery α’αααααααΎααααΆαααααααΎαααααααααααΌααα·αααααα SQL ααΆαααααααααααΎαααα½ααααααΆαααααααααα αααααΆααααααααααα αΌαα§ααααααα α»ααααΆααααΆααααα»αααααααΆαααΆαα½αααΉαααΆαα’αΆααααα ααΎαααΆαααααααααααΎααΆαα Airflow framework ααααααΎαααααΆαα α¬ Cloud Composer αα½αααΆαα½αααΉα .
ααα·αααΆα
BigQuery ααααΌαααΆααα ααΆα‘αΎααααααΆαααααααααααΌαα SQL queries αααααααΎαααΆααα·αααααααααΆαα αααΎαα ααΆαα·αααΆααααααααααΆααααΆαααΊααααΆαααΆα αααα½αααααααΆααααααααααααΆαααΆααααααΌαααααΆααα·ααααααααααα·ααααα·ααΆα α¬αααααΆααααΆααα·ααΆααααααΈαααααααΆ latency ααΆααααααααΌαααΆαα’αα»αααα . αααααΆαααααα½ααα·ααΆαα’αααααααα α’αααααααΎααααΆααααααααΎαααααΉαααΆααΉαααΆααααααααΆααααΎααααα·α ααΆααα½αααΆααΈα ααΎαααααΌααααα ααΆααΆαααααΎααααΆαα BigQuery ααααααΎαααΎααααΈαααααααΆαααΆαααααΉααα»αααΆαααααα ααΎααααΈαααααααΌαααΆαα’αα»αααααααα’αΆα ααααααααΆαααΆααααααΆααα’αααααααΎααααΆααααααααΎα ααΎαααΆαααααΎααααΆαααα»αααΆα BigQuery αααα’αΆα ααααΆααααααΆααα’αα·αα·αααα ααΎααΌαααααΆαααααααΎααααα’αα»ααααΆαα±ααααα αΆαααααααααααααααααα’αααααααΆαααααΆαααααα½ααααααα½αααα BigQuery ααΊααΆα―αααΆααααΆααααα»αααααΌααααααααααΌαααΆαααΎααααΈααααα·ααααα·αααα½α SQL α
ααΎαααΆααα·ααΆααααα½αααΆα 800 αααααααΎαααΆααα·αααααααααα αα 1 TB α αΎαααΆαααααΎαααΆαααααααΆααααα·ααααα·ααΆαααααααΊ 30 αα·ααΆααΈα ααΎαααααΆαααααααααααΆααΆαα’αα»ααααααΊααΉαααα’αααααΆαααααΆαααα ααΎααΆαααααΎααααΆαααααααααααααααΎααα αααα»ααααααα αα·ααα·α αα ααΆαααααααα ααΎαααααΌααααααα±ααααΆαα αααΆααααΆααααΌαααα·ααααα αα·ααα»αααααα»ααααααααααααΆαααααα½αααααααΎα ααΎααααΈαααααΆααααΎαααΆααααααΆααααααΈααααΎααααΆααααα·ααααα αα·αααΆααα·ααΆαααΎα’ααΈαααΊαα·αα αααααΆαα₯αααα·αααααΆαααααΆααααΎααΆααα ααΆααααααΎααααααΆααααΆααααααααααα αα·αααΆααΆαα»ααααααααααα
ααΎαααΉααα·ααΆαα’αααΈααΆαααααααααααα·αααααα αα»αααΆα αα·αααααααααααααααααα ααα»ααααΆαααααααΆααα»αααααα αααα»ααααααααΈααΈαααααΆααααααα ααα»ααααα₯α‘αΌααααααΎαααΌαα’ααααΎαα’ααααααααααααΆαα αααα»αα’αα‘α»αααααααα’αααααΉαα’αΆα ααααααα’α·αα’αααΈαααααα·ααααΆ ααααΌα ααΆαα½ααααα½ααα ααΆααα’αααααααΆαααααααΎα - Egor Mateshuk (αα·ααααααα·ααααααααΆααααααα MaximaTelecom)α
α’αΆαβαααααα:
ααααα: www.habr.com
