คุณสมบัติหลักของ TileDB:
- วิธีการที่มีประสิทธิภาพในการจัดเก็บอาร์เรย์แบบกระจัดกระจาย ซึ่งเป็นข้อมูลที่ไม่ต่อเนื่องกัน อาร์เรย์เต็มไปด้วยแฟรกเมนต์และองค์ประกอบส่วนใหญ่ยังคงว่างเปล่าหรือใช้ค่าเดียวกัน
- ความสามารถในการเข้าถึงข้อมูลในรูปแบบคีย์-ค่าหรือชุดคอลัมน์ (
ดาต้าเฟรม ); - รองรับการรวมเข้ากับที่เก็บข้อมูลบนคลาวด์ AWS S3, Google Cloud Storage และ Azure Blob Storage;
- รองรับอาร์เรย์แบบเรียงต่อกัน (บล็อก)
- ความสามารถในการใช้อัลกอริธึมการบีบอัดและการเข้ารหัสข้อมูลที่แตกต่างกัน
- รองรับการตรวจสอบความสมบูรณ์โดยใช้เช็คซัม
- ทำงานในโหมดมัลติเธรดพร้อมอินพุต/เอาต์พุตแบบขนาน
- รองรับการกำหนดเวอร์ชันข้อมูลที่เก็บไว้ รวมถึงการดึงสถานะ ณ จุดใดจุดหนึ่งในอดีตหรือการอัปเดตแบบอะตอมมิกของชุดใหญ่ทั้งหมด
- ความสามารถในการเชื่อมโยงข้อมูลเมตา
- รองรับการจัดกลุ่มข้อมูล
- โมดูลบูรณาการเพื่อใช้เป็นเครื่องมือจัดเก็บข้อมูลระดับต่ำใน Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF และ PrestoDB
- การเชื่อมโยงไลบรารีสำหรับ C++ API สำหรับ Python, R, Java และ Go
Release 2.0 มีความโดดเด่นในด้านการสนับสนุนแนวคิด DataFrame ซึ่งช่วยให้สามารถจัดเก็บข้อมูลในรูปแบบของคอลัมน์ของค่าที่มีความยาวตามต้องการซึ่งเชื่อมโยงกับคุณลักษณะบางอย่าง พื้นที่จัดเก็บข้อมูลยังได้รับการปรับให้เหมาะสมสำหรับการประมวลผลอาร์เรย์แบบกระจายที่มีขนาดต่างกัน (เซลล์สามารถจัดเก็บข้อมูลประเภทต่างๆ และสามารถดำเนินการผสานในคอลัมน์ประเภทต่างๆ เช่น ชื่อที่จัดเก็บ เวลา และราคา) เพิ่มการรองรับคอลัมน์ที่มีข้อมูลสตริง เพิ่มโมดูลสำหรับการทำงานร่วมกับ Google Cloud Storage และ Azure Blob Storage API สำหรับภาษา R ได้รับการออกแบบใหม่
ที่มา: opennet.ru