ืฉืืง ืืืืฉืื ืืืืืืจ ืืืืื ืืืื, ืืคื
ืืืืข ืืฉ ืฆืืจื ืืืืฉืื ืืืืืจ ืืขืกืงืื ืจืืืืื? ืืื ืืื ืคืฉืื ืืืกืืื ืื ืืื ืืช. ืคืฉืื โ ืื ืืจืื ืืืงืจืื ืื ื ืืืฆืขืื ืืืฉืืืื ืคืฉืืืื ืืืกืืช ืืืืืืช ืืืืข. ืื ืงืฉื ืื ืืฉ ืืจืื ืืืืข ืืื. ืื ืื ืืจืื. ืืชืืฆืื ืืื, ืื ืืืจืื
ืืืช ืืืืืืืืช ืืืืจืื ืืช: ืจืฉืช ืืคืืฆืจืืืช ืืืื ืคืืฆื
ืืืืื ื ืืกืคืช:
ืืืืจืช ืืื
ืืชืงื ืืชืขืฉืืื ืขืืืจ ืกืื ืื ืฉื ืืืฉืื ืืื Hadoop. ืืื? ืื Hadoop ืืื ืืกืืจืช ืืฆืืื ืช ืืืชืืขืืช ืืืื (ืืืชื Habr ืืกืคืง ืืืืจืื ืืคืืจืืื ืจืืื ืื ืืฉื ืื), ืืืืืื ืืืขืจื ืฉืื ืฉื ืืื ืฉืืจืืช ืืกืคืจืืืช. ืืชื ืืืื ืืืืื ืกืืื ืขืฆืืืื ืฉื ื ืชืื ืื ืืืื ืื ืืื ืื ืืืื ืื, ืืืืขืจืืช ืขืฆืื ืชืคืืฅ ืืืชื ืืื ืืื ืืืืฉืื. ืืชืจ ืขื ืื, ื ืืชื ืืืืืื ืื ืืืฉืืืช ืืช ืืืชื ืืืืืืช ืืื ืขืช - ืืืชื ืืืจืืืืช ืืืคืงืืช ืืคืขืืื.
ืืฉื ืช 2017, ืืืจืช ืืืืขืืฅ ืืืฉืคืืขื ืืจืื ืจ
Hadoop ื ืฉืขื ืช ืขื ืืื ืขืืืืื, ืืฉืืืืืืื ืฉืืื ืื ืืื ืืืืืืืช MapReduce (ืืขืจืืช ืืืคืฆืช ื ืชืื ืื ืืืืฉืืืื ืืื ืฉืจืชืื) ืืืขืจืืช ืืงืืฆืื HDFS. ืืืืจืื ืชืืื ื ืืืืืื ืืืืกืื ืืืืข ืืืืคืฅ ืืื ืฆืืชืื ืฉื ืืฉืืืืืช: ืื ืืืืง ืืืืื ืงืืืข ืืืื ืืืืืช ืืืืงื ืขื ืืกืคืจ ืฆืืชืื, ืืืืืืช ืฉืืคืื, ืืืขืจืืช ืขืืืื ืืคื ื ืืฉืืื ืฉื ืฆืืชืื ืืืืืื. ืืืงืื ืืืืช ืงืืฆืื, ื ืขืฉื ืฉืืืืฉ ืืฉืจืช ืืืืื ืืฉื NameNode.
ืืืืืจ ืฉืืืื ืืจืื ืืืฆื MapReduce ืคืืขื. ืืฉืื ืืจืืฉืื ืืืืงืื ืืช ืื ืชืื ืื ืืคื ืงืจืืืจืืื ืืกืืื, ืืฉืื ืืฉื ื ืืืืืงืื ืืคื ืืื ืืืฉืื ืืืฉืื ืืฉืืืฉื ืืชืืฆืข ืืืืฉืื.
MapReduce ื ืืฆืจ ืืืงืืจ ืขื ืืื ืืืื ืืฆืจืื ืืืืคืืฉ ืฉืื. ืืืืจ ืืื, MapReduce ืขืืจ ืงืื ืืื ื, ื- Apache ืืฉืชืื ืขื ืืคืจืืืงื. ืืืื, ืืืื ืขืืจื ืืืืจืื ืืคืชืจืื ืืช ืืืจืื. ืืืืข ืืขื ืืื: ืืืืื ืืฉ ืืจืืข ืคืจืืืงื ืืฉื Google Cloud Dataflow, ืืืืฆื ืืฉืื ืืื ืืืจื Hadoop, ืืชืืืืฃ ืืืืจ ืขืืืจื.
ืืื ืืงืจืื ืืจืื ืฉ-Google Cloud Dataflow ืืืืกืก ืขื ืืจืืืฆืื ืฉื Apache Beam, ืืขืื Apache Beam ืืืื ืืช ืืืกืืจืช ืืืชืืขืืช ืืืื ืฉื Apache Spark, ืืืืคืฉืจืช ืื ื ืืืืจ ืขื ืืืชื ืืืืจืืช ืืืฆืืข ืืืขื ืฉื ืคืชืจืื ืืช. ืืืื, Apache Spark ืขืืื ืืฆืืจื ืืืฉืืืช ืขื ืืขืจืืช ืืงืืฆืื HDFS, ืืืืคืฉืจืช ืืคืจืืก ืืืชื ืขื ืฉืจืชื Hadoop.
ืืืกืฃ ืืื ืืช ื ืคื ืืชืืขืื ืืืคืชืจืื ืืช ืืืืื ืื ืขืืืจ Hadoop ื-Spark ืืื Google Cloud Dataflow, ืืืืืืจื ืืืื ืืืคืืช ืืจืืจื. ืืชืจื ืืื, ืืื ืืกืื ืืืืืื ืืืืืื ืืขืฆืื ืืืื ืงืื - ืขืืืจ Hadoop ืื Spark - ืขืืืื ืืืคืขืื, ืชืื ืืชืืงืืืช ืืืฉืืื, ืื ืืกืืื ืืืืืฉืืจืื.
ืขื ื ืื ืฉืจืช ืืงืืื
ืืืืื ืืืขืืจ ืืืื ืืขื ื ืืฃ ืืืืืื ืืื ื ืืขื ืืื ืืื Hadoop-as-a-service. ืืชืจืืืฉ ืืื, ืื ืืืื ืฉื ืฉืจืชืื ืืืืืจืื ืืคื ืืฉืื ืืืื. ืื, ืืืจืื ืืฆืขืจ, ืืืจืืช ืืคืืคืืืจืืืช ืฉืื, Hadoop ืืืืจ ืืื ืืื ืงืฉื ืืืื ืืืืืจื, ืืืืืื ืฉืฆืจืื ืืขืฉืืช ืืจืื ืืื ืืช. ืืืืืื, ืืืืืืจ ืฉืจืชืื ืื ืคืจื, ืืคืงื ืขื ืืืืฆืืขืื ืฉืืื ืืืืืืืจ ืืงืคืืื ืคืจืืืจืื ืจืืื. ืืืืคื ืืืื, ืืขืืืื ืืืืขืืช ืืืืืื ืืืฉ ืกืืืื ืืืื ืืืชืืืื ืืืคืฉืื ืื ืืคืกืคืก ืืฉืื.
ืืื, ืขืจืืืช ืืคืฆื ืฉืื ืืช, ืืฉืจ ืืฆืืืืืช ืืชืืืื ืืืื ืคืจืืกื ืื ืืืื ื ืืืื, ืืคืื ืคืืคืืืจืืืช ืืืื. ืืืช ืืืคืฆืืช ืืคืืคืืืจืืืช ืืืืชืจ ืฉืชืืืืืช ืืกืคืืจืง ืืืงืืืช ืขื ืืื ืืื Cloudera. ืืฉ ืื ืื ืืจืกืืืช ืืชืฉืืื ืืื ืืื ืืืืช - ืืืืืจืื ืื ืืคืื ืงืฆืืื ืืืืช ืืืกืืกืืช ืืืื ื, ืืืื ืืืืืื ืืช ืืกืคืจ ืืฆืืชืื.
ืืืืื ืืืืืจื, Cloudera Manager ืืชืืืจ ืืืืฆืขืืช SSH ืืฉืจืชืื ืฉืื. ื ืงืืื ืืขื ืืื ืช: ืืขืช ืืืชืงื ื, ืขืืืฃ ืืฆืืื ืฉืื ืืืืฆืข ืขื ืืื ืื ืฉื ืงืจื ืคืืจืืืช: ืืืืืืช ืืืืืืืช, ืฉืื ืืืช ืืื ืืืืื ืืช ืื ืืจืืืืื ืืืจืืฉืื ืืืืืืจืื ืืขืืื ืื ืขื ืื. ืืขืืงืจืื ืืืื ืืจืกื ืืฉืืคืจืช ืฉื ืื ืื ืืืืืืืช.
ืืืืจ ืืืชืงื ื, ืื ื ืืงืืืื ืืกืืฃ ื ืืืื ืืฉืืืืืช, ืฉืื ืืชื ืืืื ืืจืืืช ืืืืืจืืืช ืืฉืืืืืช, ืฉืืจืืชืื ืืืชืงื ืื, ืื ืืกืฃ ืชืืื ืืืืกืืฃ/ืืืกืืจ ืืฉืืืื ืืืขืจืื ืืช ืชืฆืืจืช ืืืฉืืืืืช.
ืืชืืฆืื ืืื, ืชื ืืืื ืฉืืืงื ืืชืื ืืขืชืื ืืืืืจ ืฉื BigData ืืืคืืข ืืคื ืืื. ืืื ืืคื ื ืฉื ืืืจ "ืืื ื ืื", ืืืื ื ืขืืืจ ืืชืืช ืืืืกื ืืื ืืข.
ืืจืืฉืืช ืืืืจื
ืืืชืจ ืืืื ืืจื ื ืฉืื, Cloudera ืืืืืจื ืชืฆืืจืืช ืืคืฉืจืืืช ืฉืื ืืช. ืืขืงืจืื ืืช ืืืืืืื ืฉืืคืืื ืื ืื ืืืื ืืืฆืืื ืืืืืจ:
MapReduce ืืืื ืืืฉืืฉ ืืช ืืชืืื ื ืืืืคืืืืืช ืืื. ืื ืืกืชืืืื ืฉืื ืขื ืืืืืืจืื ืืืกืขืืฃ ืืงืืื, ืืชืืจืจ ืฉืืืขื ืืื ืืืงืจืื, ืขืืืืช MapReduce ืืืืื ืืืืชืงื ืืฆืืืืจ ืืงืืืง ืืขืช ืงืจืืืช ื ืชืื ืื ืืืืืกืง ืื ืืืจืฉืช. ืื ืืฆืืื ืื ืืืืื Cloudera. ืืชืืฆืื ืืื, ืขืืืจ ืื ืืืฉืื ืืืืจ, ืืืื ืืจื Spark, ืืืฉืืฉืช ืืขืชืื ืงืจืืืืช ืืืืฉืืืื ืืืื ืืืช, ืืืืจืืช ืืงืื/ืคืื ืืฉืืื ืืืื. ืืื, ืืฉืืืืฉ ื-Hadoop, ืืฉืื ืืืื ืฉืืืฉืืื ืืืืื ืืืื ืืช ืืืืื ืืช ืืืืืจืืช, ืฉืืืฉืื ืืืขืื, ืื ืชืืื ืืืืื ืืชืฉืชืืช ืืขื ื.
ืืืืื ืืืืืงืช ืืขืืืก ืืืฉื ืืืืฆืขืืช ืฉืืืืฉ ืืืืืจืืืืืืืฆืื ืฉื Openstack ืืฉืจืชืื ืขื ืืขืืืื ืจืื-ืืืืืช ืจืื ืขืืฆืื. ืืฆืืชื ื ืชืื ืื ืืืงืฆืื ืืฉืืื ืืขืื ืืฉืืื ืืืืกืงืื ืกืคืฆืืคืืื. ืืืืืื ืฉืื ื Atos Codex Data Lake Engine ืืืฉืืช ืืืจืืืืืืืฆืื ืจืืื, ืืื ืืกืืื ืฉืื ื ืืจืืืืืื ืื ืืืืื ืช ืืืฆืืขืื (ืืฉืคืขืช ืชืฉืชืืช ืืจืฉืช ืืืืืขืจืช) ืืื ื-TCO (ืืชืืืืื ืฉืจืชืื ืคืืืืื ื ืืกืคืื).
ืืขืช ืฉืืืืฉ ืืฉืจืชื BullSequana S200, ืื ื ืืงืืืื ืขืืืก ืืืื ืืืื, ื ืืื ืืื ืฆืืืืจื ืืงืืืง. ืืชืฆืืจื ืืืื ืืืืืช ืืืืืช 3 ืฉืจืชื BullSequana S200, ืื ืืื ืขื ืฉื ื JBODs, ืืชืืกืคืช S200s ื ืืกืคืื ืืืืืืื ืืจืืขื ืฆืืชื ื ืชืื ืื ืืืืืจืื ืืืืคื ืืืคืฆืืื ืื. ืื ื ืืืืื ืืขืืืก ืืืืื TeraGen:
ืืืืงืืช ืขื ื ืคืื ื ืชืื ืื ืืขืจืื ืฉืืคืื ืฉืื ืื ืืฆืืืืช ืืช ืืืชื ืชืืฆืืืช ืืืื ืืื ืฉื ืืืืงืช ืขืืืกืื ืืื ืฆืืชื ืืฉืืื. ืืืื ืืจืฃ ืฉื ืืชืคืืืืช ืืืืฉื ืืืืกืง ืืคื ืืืื ื ืืืฆืืขืื.
ืืืฉืืืื ืืืฆืขื ืขื ืกืื ืชืฆืืจื ืืื ืืืืืช ืฉื 3 ืฉืจืชื BullSequana S200. ืืื ืืืื 9 ืฆืืชื ื ืชืื ืื ื-3 ืฆืืชืื ืืืกืืจ, ืืื ืื ืืืื ืืช ืืืจืืืืืืืช ืฉืืืจืืช ืืืงืจื ืฉื ืคืจืืกืช ืืื ื ืืืืืกืกืช ืขื OpenStack Virtualization. ืชืืฆืืช ืืืืงืช TeraSort: ืืืื ืืืืง 512 MB ืืงืื ืฉืืคืื ืฉืืื ืืฉืืืฉ ืขื ืืฆืคื ื ืืื 23,1 ืืงืืช.
ืืืฆื ื ืืชื ืืืจืืื ืืช ืืืขืจืืช? ืืฉื ื ืกืืืื ืฉืื ืื ืฉื ืืจืืืืช ืืืื ืืช ืขืืืจ Data Lake Engine:
- ืฆืืชื ื ืชืื ืื: ืขืืืจ ืื 40 TB ืฉื ืฉืื ืฉืืืฉ
- ืฆืืชืื ืื ืืืืืื ืขื ืืืืืช ืืืชืงืื GPU
- ืืคืฉืจืืืืช ืืืจืืช ืืืชืื ืืฆืจืืื ืืขืกืงืืื (ืืืืืื, ืื ืืชื ืฆืจืื ืงืคืงื ืืืืืื)
Atos Codex Data Lake Engine ืืืื ืื ืืช ืืฉืจืชืื ืขืฆืื ืืื ืชืืื ืืช ืืืชืงื ืืช ืืจืืฉ, ืืืื ืขืจืืช Cloudera ืืืจืฉืืช; Hadoop ืขืฆืื, OpenStack ืขื ืืืื ืืช ืืืจืืืืืืืช ืืืืืกืกืืช ืขื ืืืืช RedHat Enterprise Linux, ืืขืจืืืช ืฉืืคืื ืืืืืื ื ืชืื ืื (ืืืื ืฉืืืืฉ ืืฆืืืช ืืืืื ื-Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine ืืคื ืืคืชืจืื ืืืืจืืืืืืืฆืื ืืจืืฉืื ืฉืงืืื ืืกืืื
ืื ืืชื ืืขืื ืืื ืื ืืคืจืืื, ื ืฉืื ืืขื ืืช ืขื ืฉืืืืชืื ื ืืชืืืืืช.
ืืงืืจ: www.habr.com