การเปิดตัวเครื่องมือจัดเก็บข้อมูล TileDB 2.0

Submitted กรุ ไทล์ดีบี ​​2.0ปรับให้เหมาะสมสำหรับการจัดเก็บอาร์เรย์หลายมิติและข้อมูลที่ใช้ในการคำนวณทางวิทยาศาสตร์ ระบบต่างๆ ในการประมวลผลข้อมูลทางพันธุกรรม ข้อมูลเชิงพื้นที่ และการเงิน ถือเป็นขอบเขตการใช้งานสำหรับ TileDB เช่น ระบบปฏิบัติการ เบาบาง หรืออาร์เรย์หลายมิติที่เติมอย่างต่อเนื่อง TileDB นำเสนอไลบรารี C++ สำหรับการเข้าถึงข้อมูลและข้อมูลเมตาในแอปพลิเคชันอย่างโปร่งใส โดยดูแลงานระดับต่ำทั้งหมดเพื่อการจัดเก็บข้อมูลที่มีประสิทธิภาพ รหัสโครงการเขียนด้วยภาษา C ++ และ จัดจำหน่ายโดย ภายใต้ใบอนุญาต MIT รองรับการทำงานบน Linux, macOS และ Windows

คุณสมบัติหลักของ TileDB:

  • วิธีการที่มีประสิทธิภาพในการจัดเก็บอาร์เรย์แบบกระจัดกระจาย ซึ่งเป็นข้อมูลที่ไม่ต่อเนื่องกัน อาร์เรย์เต็มไปด้วยแฟรกเมนต์และองค์ประกอบส่วนใหญ่ยังคงว่างเปล่าหรือใช้ค่าเดียวกัน
  • ความสามารถในการเข้าถึงข้อมูลในรูปแบบคีย์-ค่าหรือชุดคอลัมน์ (ดาต้าเฟรม);

    การเปิดตัวเครื่องมือจัดเก็บข้อมูล TileDB 2.0

  • รองรับการรวมเข้ากับที่เก็บข้อมูลบนคลาวด์ AWS S3, Google Cloud Storage และ Azure Blob Storage;
  • รองรับอาร์เรย์แบบเรียงต่อกัน (บล็อก)
  • ความสามารถในการใช้อัลกอริธึมการบีบอัดและการเข้ารหัสข้อมูลที่แตกต่างกัน
  • รองรับการตรวจสอบความสมบูรณ์โดยใช้เช็คซัม
  • ทำงานในโหมดมัลติเธรดพร้อมอินพุต/เอาต์พุตแบบขนาน
  • รองรับการกำหนดเวอร์ชันข้อมูลที่เก็บไว้ รวมถึงการดึงสถานะ ณ จุดใดจุดหนึ่งในอดีตหรือการอัปเดตแบบอะตอมมิกของชุดใหญ่ทั้งหมด
  • ความสามารถในการเชื่อมโยงข้อมูลเมตา
  • รองรับการจัดกลุ่มข้อมูล
  • โมดูลบูรณาการเพื่อใช้เป็นเครื่องมือจัดเก็บข้อมูลระดับต่ำใน Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF และ PrestoDB
  • การเชื่อมโยงไลบรารีสำหรับ C++ API สำหรับ Python, R, Java และ Go

Release 2.0 มีความโดดเด่นในด้านการสนับสนุนแนวคิด DataFrame ซึ่งช่วยให้สามารถจัดเก็บข้อมูลในรูปแบบของคอลัมน์ของค่าที่มีความยาวตามต้องการซึ่งเชื่อมโยงกับคุณลักษณะบางอย่าง พื้นที่จัดเก็บข้อมูลยังได้รับการปรับให้เหมาะสมสำหรับการประมวลผลอาร์เรย์แบบกระจายที่มีขนาดต่างกัน (เซลล์สามารถจัดเก็บข้อมูลประเภทต่างๆ และสามารถดำเนินการผสานในคอลัมน์ประเภทต่างๆ เช่น ชื่อที่จัดเก็บ เวลา และราคา) เพิ่มการรองรับคอลัมน์ที่มีข้อมูลสตริง เพิ่มโมดูลสำหรับการทำงานร่วมกับ Google Cloud Storage และ Azure Blob Storage API สำหรับภาษา R ได้รับการออกแบบใหม่

ที่มา: opennet.ru

เพิ่มความคิดเห็น