TileDB 2.0 պահեստավորման շարժիչի թողարկում

Опубликовано պահոց TileDB 2.0, օպտիմիզացված գիտական ​​հաշվարկներում օգտագործվող բազմաչափ զանգվածների և տվյալների պահպանման համար։ Որպես TileDB-ի կիրառման ոլորտներ նշվում են գենետիկական տեղեկատվության, տարածական և ֆինանսական տվյալների մշակման տարբեր համակարգեր, այսինքն. օպերացիոն համակարգեր նոսր կամ շարունակաբար լցված բազմաչափ զանգվածներ։ TileDB-ն առաջարկում է C++ գրադարան՝ հավելվածներում տվյալների և մետատվյալների հասանելիությունը թափանցիկ կերպով վերացականացնելու համար՝ հոգալով ցածր մակարդակի բոլոր աշխատանքները արդյունավետ պահեստավորման համար: Ծրագրի կոդը գրված է C++ և տարածվում է MIT լիցենզիայի ներքո: Աջակցում է աշխատել Linux-ի, macOS-ի և Windows-ի վրա:

TileDB-ի հիմնական առանձնահատկությունները.

  • Քիչ զանգվածներ պահելու արդյունավետ մեթոդներ, որոնցում տվյալները շարունակական չեն, զանգվածը լցված է բեկորներով, և տարրերի մեծ մասը մնում է դատարկ կամ ընդունում է նույն արժեքը:
  • Բանալին-արժեքի ձևաչափով կամ սյունակների հավաքածուներով տվյալներ մուտք գործելու ունակություն (DataFrame);

    TileDB 2.0 պահեստավորման շարժիչի թողարկում

  • Աջակցում է ինտեգրումը ամպային պահեստի AWS S3-ի, Google Cloud Storage-ի և Azure Blob Storage-ի հետ;
  • Սալիկապատ (բլոկ) զանգվածների աջակցություն;
  • Տարբեր տվյալների սեղմման և գաղտնագրման ալգորիթմներ օգտագործելու ունակություն;
  • Աջակցություն ամբողջականության ստուգմանը, օգտագործելով չեկային գումարներ;
  • Աշխատեք բազմաթելային ռեժիմում՝ զուգահեռ մուտքով/ելքով;
  • Պահպանված տվյալների տարբերակման աջակցություն, ներառյալ անցյալի որոշակի կետում վիճակի վերբերումը կամ ամբողջ մեծ հավաքածուների ատոմային թարմացումները:
  • Մետատվյալները կապելու ունակություն;
  • Տվյալների խմբավորման աջակցություն;
  • Ինտեգրման մոդուլներ Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF և PrestoDB-ում որպես ցածր մակարդակի պահեստավորման շարժիչ օգտագործելու համար;
  • Պարտադիր գրադարաններ C++ API-ի համար Python-ի, R-ի, Java-ի և Go-ի համար:

Release 2.0-ն աչքի է ընկնում «DataFrame» հայեցակարգին իր աջակցությամբ, որը թույլ է տալիս տվյալները պահել կամայական երկարության արժեքների սյունակների տեսքով՝ կապված որոշակի ատրիբուտների հետ: Պահպանումը օպտիմիզացված է նաև տարասեռ չափերի նոսր զանգվածների մշակման համար (բջիջները կարող են պահել տարբեր տեսակի տվյալներ և կարող են միաձուլման գործողություններ կատարել տարբեր տեսակի սյունակների վրա, օրինակ՝ անունը, ժամանակը և գինը պահողներ): Ավելացվեց լարային տվյալների հետ սյունակների աջակցություն: Ավելացվել են մոդուլներ՝ Google Cloud Storage-ի և Azure Blob Storage-ի հետ ինտեգրվելու համար: R լեզվի API-ն վերանախագծվել է:

Source: opennet.ru

Добавить комментарий