Image by Patrick Tomasso

データカタログ評価

 

データカタログの基本

 データカタログとはデータストアのメタデータの収集・整理・検索・アクセス管理機能を主目的とする製品です。データの多量性・多種性にともなって、その来歴や処理プロセス、更新履歴、データ品質が求められるようになり、それらの機能が付随する製品も存在しています。大きく、パブリッククラウド系の製品はカタログのみを機能としてもち、3rdパーティ製品はデータ統合ツールに付随する機能として提供しつつもデータガバナンスに資するリッチな機能を備えた製品が多いです。

 プリミティブな役割としては、物理名をビジネス用語に変換するなど、用語集としてデータガバナンスを支えます。監査、コンプライアンス、データ品質管理および変更管理など、より高度なデータガバナンスをケースとして導入する事例も増えてきています。

対象製品と製品特徴

パブリッククラウド系からGoogle Data Catalog、AWS Glue、3rd Party製からTalend、Informatica、Denodoを対象としています。

評価観点

 機能要件として、大きく分けてデータカタログの有する機能、データベースの機能があります。データカタログの有する機能にはミニマムなものからリネージやメタデータの変更管理、データ品質管理までできるものもあります。データベース の機能にはデータストアへの変更反映機能やデータストアのロールバックまでできるものがあります。

 機能的剛性、運用製、費用感からそれぞれの評価基準と重要度にもとづいて評価します。評価スコアは、各項目の重要度に応じて評価スコアに傾斜(高:1.5倍、中:1倍、低:0.5倍)を付けて計算し、各項目の合計を5点満点に標準化して評価します。

評価結果

 メタデータ管理の機能のみに限定するのであればはいずれのツールにおいても差異がないです。ミニマムに利用するのであればGoogle Data Catalogでよいが、データガバナンスの要件にはTalendがもっとも合致します。

 今回の評価では一般的なデータガバナンスの要件にもとづいて評価を行なっていますが、業務や体制、経営課題によって重視すべき事項は異なります。課題に応じた最適なデータカタログ製品の選定を行いたいなどございましたら、下記よりお問い合わせお待ちしております。