Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Herhangi bir büyük veri işlemi çok fazla bilgi işlem gücü gerektirir. Verilerin bir veritabanından Hadoop'a taşınması, haftalar sürebilir veya bir uçak kanadı kadar maliyetli olabilir. Beklemek ve para harcamak istemiyor musunuz? Yükü farklı platformlarda dengeleyin. Bunun bir yolu aşağı açılan optimizasyondur.

Informatica ürünlerinin geliştirilmesi ve yönetimi konusunda Rusya'nın önde gelen eğitmeni Alexey Ananyev'den Informatica Büyük Veri Yönetimi'ndeki (BDM) aşağı açılan optimizasyon fonksiyonu hakkında konuşmasını istedim. Informatica ürünleriyle çalışmayı hiç öğrendiniz mi? Büyük olasılıkla, size PowerCenter'ın temellerini anlatan ve haritalamaların nasıl oluşturulacağını açıklayan Alexey'di.

Alexey Ananyev, DIS Grubu Eğitim Müdürü

Aşağı itme nedir?

Birçoğunuz Informatica Büyük Veri Yönetimi'ne (BDM) zaten aşinasınız. Ürün, farklı kaynaklardan gelen büyük verileri entegre edebilir, farklı sistemler arasında taşıyabilir, ona kolay erişim sağlayabilir, profilini çıkarmanıza olanak tanır ve çok daha fazlasını yapabilir.
Doğru ellerde BDM harikalar yaratabilir: görevler hızlı bir şekilde ve minimum bilgi işlem kaynaklarıyla tamamlanacaktır.

Sen de bunu istiyor musun? Bilgi işlem yükünü farklı platformlara dağıtmak için BDM'deki aşağı açılan özelliğini kullanmayı öğrenin. Aşağı açılan teknoloji, eşlemeyi bir komut dosyasına dönüştürmenize ve bu komut dosyasının çalışacağı ortamı seçmenize olanak tanır. Bu seçim, farklı platformların güçlü yönlerini birleştirmenize ve maksimum performansa ulaşmanıza olanak tanır.

Komut dosyası yürütme ortamını yapılandırmak için aşağı açılan türü seçmeniz gerekir. Komut dosyası tamamen Hadoop'ta çalıştırılabilir veya kaynak ile havuz arasında kısmen dağıtılabilir. 4 olası aşağı itme türü vardır. Eşlemenin bir komut dosyasına (yerel) dönüştürülmesine gerek yoktur. Haritalama mümkün olduğu kadar kaynak (source) üzerinde veya tamamen kaynak (full) üzerinde yapılabilir. Eşleme ayrıca bir Hadoop betiğine (yok) dönüştürülebilir.

Aşağı açılan optimizasyon

Listelenen 4 tür farklı şekillerde birleştirilebilir; aşağı açılan sistem, sistemin özel ihtiyaçları için optimize edilebilir. Örneğin, bir veritabanından kendi yeteneklerini kullanarak veri çıkarmak genellikle daha uygundur. Veri tabanının aşırı yüklenmemesi için veriler Hadoop kullanılarak dönüştürülecek.

Hem kaynağın hem de hedefin veritabanında olduğu ve dönüşüm yürütme platformunun seçilebildiği durumu ele alalım: ayarlara bağlı olarak Informatica, veritabanı sunucusu veya Hadoop olacaktır. Böyle bir örnek, bu mekanizmanın işleyişinin teknik yönünü en doğru şekilde anlamanıza olanak sağlayacaktır. Doğal olarak gerçek hayatta bu durum ortaya çıkmaz, ancak işlevselliği göstermek için en uygun olanıdır.

Tek bir Oracle veritabanındaki iki tabloyu okumak için eşlemeyi ele alalım. Ve okuma sonuçlarının aynı veritabanındaki bir tabloya kaydedilmesine izin verin. Haritalama şeması şu şekilde olacaktır:

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Informatica BDM 10.2.1'deki haritalama biçiminde şuna benzer:

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Aşağı açılan tür – yerel

Aşağı açılan yerel türü seçersek, eşleştirme Informatica sunucusunda gerçekleştirilecektir. Veriler Oracle sunucusundan okunacak, Informatica sunucusuna aktarılacak, orada dönüştürülerek Hadoop'a aktarılacaktır. Yani normal bir ETL süreci yaşayacağız.

Aşağı açılan tür – kaynak

Kaynak tipini seçerken sürecimizi veritabanı sunucusu (DB) ve Hadoop arasında dağıtma fırsatını yakalıyoruz. Bu ayarla bir işlem yürütüldüğünde tablolardan veri alma istekleri veritabanına gönderilecektir. Geri kalanı ise Hadoop üzerinde adımlar şeklinde gerçekleştirilecek.
Yürütme şeması şöyle görünecek:

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Aşağıda çalışma zamanı ortamını ayarlamaya ilişkin bir örnek verilmiştir.

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Bu durumda haritalama iki adımda gerçekleştirilecektir. Ayarlarında kaynağa gönderilecek bir betiğe dönüştüğünü göreceğiz. Ayrıca tabloların birleştirilmesi ve verilerin dönüştürülmesi, kaynak üzerinde geçersiz kılınan bir sorgu şeklinde gerçekleştirilecektir.
Aşağıdaki resimde BDM üzerinde optimize edilmiş bir eşleme ve kaynak üzerinde yeniden tanımlanmış bir sorgu görüyoruz.

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Hadoop'un bu yapılandırmadaki rolü, veri akışını yönetmeye ve onu düzenlemeye indirgenecek. Sorgunun sonucu Hadoop'a gönderilecektir. Okuma tamamlandığında Hadoop'tan gelen dosya havuza yazılacaktır.

Aşağı açılan tip – tam

Tam tipi seçtiğinizde eşleme tamamen bir veritabanı sorgusuna dönüşecektir. Ve isteğin sonucu Hadoop'a gönderilecek. Böyle bir sürecin diyagramı aşağıda sunulmuştur.

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Örnek bir kurulum aşağıda gösterilmektedir.

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Sonuç olarak, öncekine benzer optimize edilmiş bir haritalama elde edeceğiz. Tek fark, tüm mantığın, yerleştirmeyi geçersiz kılma şeklinde alıcıya aktarılmasıdır. Optimize edilmiş eşlemenin bir örneği aşağıda sunulmuştur.

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Burada, önceki durumda olduğu gibi, Hadoop şef rolünü oynuyor. Ancak burada kaynak bütünüyle okunur ve ardından alıcı düzeyinde veri işleme mantığı gerçekleştirilir.

Aşağı açılan türü boş

Son seçenek, eşlememizin bir Hadoop betiğine dönüşeceği aşağı açılan türdür.

Optimize edilmiş eşleme artık şöyle görünecek:

Çok büyük veriler ucuz ve hızlı bir şekilde nasıl taşınır, yüklenir ve entegre edilir? Aşağı açılan optimizasyon nedir?

Burada kaynak dosyalardaki veriler ilk önce Hadoop'ta okunacak. Daha sonra kendi imkanlarıyla bu iki dosya birleştirilecek. Bundan sonra veriler dönüştürülecek ve veritabanına yüklenecektir.

Aşağı açılan optimizasyonun ilkelerini anlayarak, büyük verilerle çalışmaya yönelik birçok süreci çok etkili bir şekilde organize edebilirsiniz. Böylece, yakın zamanda büyük bir şirket, daha önce birkaç yıldır topladığı büyük verileri yalnızca birkaç hafta içinde depolama alanından Hadoop'a indirdi.

Kaynak: habr.com

Yorum ekle