ការចេញផ្សាយម៉ាស៊ីនផ្ទុក TileDB 2.0

បានបោះពុម្ភផ្សាយ ឃ្លាំង TileDB 2.0ធ្វើឱ្យប្រសើរសម្រាប់ការរក្សាទុកអារេពហុវិមាត្រ និងទិន្នន័យដែលប្រើក្នុងការគណនាតាមបែបវិទ្យាសាស្ត្រ។ ប្រព័ន្ធផ្សេងៗសម្រាប់ដំណើរការព័ត៌មានហ្សែន ទិន្នន័យទំហំ និងហិរញ្ញវត្ថុត្រូវបានលើកឡើងជាផ្នែកនៃកម្មវិធីសម្រាប់ TileDB ពោលគឺឧ។ ប្រព័ន្ធប្រតិបត្តិការ ស្រាល ឬបន្តបំពេញអារេពហុវិមាត្រ។ TileDB ផ្តល់ជូននូវបណ្ណាល័យ C++ សម្រាប់ការបញ្ចេញទិន្នន័យ និងទិន្នន័យមេតាក្នុងកម្មវិធីដោយតម្លាភាព ដោយយកចិត្តទុកដាក់លើការងារកម្រិតទាបទាំងអស់សម្រាប់ការផ្ទុកប្រកបដោយប្រសិទ្ធភាព។ កូដគម្រោងត្រូវបានសរសេរជា C ++ និង ចែកចាយ​ដោយ ក្រោមអាជ្ញាប័ណ្ណ MIT ។ គាំទ្រការងារនៅលើ Linux, macOS និង Windows ។

លក្ខណៈសំខាន់ៗរបស់ TileDB៖

  • វិធីសាស្រ្តដ៏មានប្រសិទ្ធភាពសម្រាប់ការរក្សាទុកអារេ sparse, ទិន្នន័យដែលមិនបន្ត; អារេត្រូវបានបំពេញដោយបំណែកហើយភាគច្រើននៃធាតុនៅតែទទេឬយកតម្លៃដូចគ្នា។
  • លទ្ធភាព​ក្នុង​ការ​ចូល​ដំណើរ​ការ​ទិន្នន័យ​ក្នុង​ទម្រង់​តម្លៃ​សោ ឬ​សំណុំ​ជួរ​ឈរ (DataFrame);

    ការចេញផ្សាយម៉ាស៊ីនផ្ទុក TileDB 2.0

  • គាំទ្រការរួមបញ្ចូលជាមួយការផ្ទុកពពក AWS S3, Google Cloud Storage និង Azure Blob Storage;
  • ការគាំទ្រសម្រាប់ក្រឡាក្បឿង (ប្លុក) អារេ;
  • សមត្ថភាពក្នុងការប្រើក្បួនដោះស្រាយការបង្ហាប់ទិន្នន័យ និងការអ៊ិនគ្រីបផ្សេងៗគ្នា។
  • ការគាំទ្រសម្រាប់ការត្រួតពិនិត្យសុចរិតភាពដោយប្រើ checksums;
  • ធ្វើការនៅក្នុងរបៀបពហុខ្សែជាមួយនឹងការបញ្ចូល / ទិន្នផលប៉ារ៉ាឡែល;
  • ការ​គាំទ្រ​សម្រាប់​កំណែ​ទិន្នន័យ​ដែល​បាន​រក្សា​ទុក រួម​ទាំង​ការ​ទៅ​យក​ស្ថានភាព​នៅ​ចំណុច​ជាក់លាក់​មួយ​ក្នុង​អតីតកាល ឬ​អាប់ដេត​អាតូមិក​នៃ​សំណុំ​ធំ​ទាំង​មូល។
  • សមត្ថភាពក្នុងការភ្ជាប់ទិន្នន័យមេតា;
  • ការគាំទ្រសម្រាប់ក្រុមទិន្នន័យ;
  • ម៉ូឌុលរួមបញ្ចូលសម្រាប់ប្រើជាម៉ាស៊ីនផ្ទុកកម្រិតទាបនៅក្នុង Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF និង PrestoDB;
  • បណ្ណាល័យចងសម្រាប់ C ++ API សម្រាប់ Python, R, Java និង Go ។

ការចេញផ្សាយ 2.0 គឺគួរឱ្យកត់សម្គាល់សម្រាប់ការគាំទ្ររបស់វាសម្រាប់គោលគំនិត "DataFrame" ដែលអនុញ្ញាតឱ្យទិន្នន័យត្រូវបានរក្សាទុកក្នុងទម្រង់នៃជួរឈរនៃតម្លៃនៃប្រវែងបំពានដោយចងទៅនឹងគុណលក្ខណៈជាក់លាក់។ ការផ្ទុកក៏ត្រូវបានធ្វើឱ្យប្រសើរផងដែរសម្រាប់ដំណើរការអារេតូចនៃទំហំខុសគ្នា (កោសិកាអាចរក្សាទុកទិន្នន័យនៃប្រភេទផ្សេងៗគ្នា និងអាចអនុវត្តប្រតិបត្តិការបញ្ចូលគ្នានៅលើជួរឈរនៃប្រភេទផ្សេងៗគ្នា ឧទាហរណ៍ ឈ្មោះរក្សាទុកទាំងនោះ ពេលវេលា និងតម្លៃ)។ បានបន្ថែមការគាំទ្រសម្រាប់ជួរឈរដែលមានទិន្នន័យខ្សែអក្សរ។ បានបន្ថែមម៉ូឌុលសម្រាប់ការរួមបញ្ចូលជាមួយ Google Cloud Storage និង Azure Blob Storage ។ API សម្រាប់ភាសា R ត្រូវបានរៀបចំឡើងវិញ។

ប្រភព: opennet.ru

បន្ថែមមតិយោបល់