
従来のデータウェアハウスは、その設計目的であるバッチ処理型の分析において優れた性能を発揮します。スケジュールに基づいてデータをロードし、大規模な分析クエリを実行し、ダッシュボードを公開し、これを繰り返します。
問題は、今日のハイテクワークロードはもはやそのような挙動を示さないということです。
実際には、いつも同じパターンが繰り返されます。チームはデータウェアハウスに多額の投資を行い、ダッシュボードは問題なく見え、経営陣は自信満々です。しかし、実際のユーザー、API、サービスが同時に同じデータにアクセスし始めると、状況は一変します。レイテンシが急上昇し、コストが跳ね上がり、エンジニアはシステムを維持するために「もう一つだけシステムを追加しよう」と躍起になるのです。
今日、データは絶えず生成され、人間やマシンによって照会され、製品内で直接収益化されています。そしてますます、AIエー ジェントによって消費されるようになっています。AIエージェントは、夜間の処理が終わるまで待つのではなく、常に最新のコンテキストを必要としています。
要するに、現代のハイテクなワークロードは、ウェアハウスが構築されてきた際の基本的な前提を覆すものなのです。
何が変わったのか、なぜ「単にデータウェアハウスを拡張する」だけではたいてい失敗するのか、そしてリアルタイムのパフォーマンスと同時実行性が実際に重要になったときに、最も成功しているチームはどのような違いを生み出しているのかを詳しく見ていきましょう。
オンプレミス型であれクラウド型であれ、従来のデータウェアハウスは、比較的安定した一連の前提に基づいて構築されていました。データはバッチで到着し、クエリは主に分析的であり、同時実行性は管理可能で、スキーマは頻繁に変更されず、結果が出るまでに数秒、あるいは数分待つことは許容範囲内です。データウェアハウスは過去の分析には優れていますが、リアルタイムの運用サービスに求められると苦戦します。
これらのプラットフォームの最新のクラウド版でさえ、その本質は依然として受け継がれています。操作は以前の世代よりもはるかに簡単で強力になっていますが、それでも分析はデータが取り込まれ、変換され、レポートに適した形式にモデル化された後に行われるという前提に基づいています。
以前のワークフローは、質問のほとんどが昨日や先週の出来事に関するものだった時代には理にかなっていました。しかし、今の状況は全く異なりま す。ハイテク企業はますます、まさに今起こっていることに基づいて事業を展開するようになっています。
現代のハイテク環境において、「データ」とは通常、以下のことを意味します。
イベント、ログ、クリック、テレメトリの連続的なストリーム
- 運用クエリと分析クエリが同じデータセットにアクセスする
数千人のユーザー、API、サービス、およびバックグラウンドジョブによる高い同時実行性
- 数百もの属性を持つ、広範かつ急速に進化するスキーマで、毎週新しいフィールドが追加される
顧客対応エクスペリエンスを支える、秒単位以下のSLA
- そしてますます増えているのが、AIを活用したクエリ:ベクトル検索、情報取得、特徴量検索、そしてエージェント型ワークフローです
最新の製品分析パイプライン、リアルタイム監視ダッシュボード、広告技術入札システム、あるいはハードウェア製造の品質ループを構築した経験があるなら、このパターンは既にご存知でしょう。
変化した点は、チームが単にシステムをリアルタイムで監視するだけではなくなったことです。彼らは、自動的、継続的、かつ大規模に、リアルタイムで行動することが求められるようになりました。
ウェアハウス中心のアーキテクチャの多くは、まさにそこで限界に達し始めます。
エージェント型リアルタイムアプリケーションでは、トランザクション層、構造化層、半構造化層にわたるデータアクセスを高い同時実行性で実現する必要があります。従来の分析とは異なり、セマンティック層自体がリアルタイム実行パスで利用可能である必要があり、AIエージェントが遅延なくデータの取得、推論、およびアクションを実行できるようにする必要があります。
