2025 年 3 月 11 日から 14 日にかけて、米国カリフォルニア州のパームスプリングスで Esri Developer & Technology Summit が開催されました。
本記事では、そこで紹介されたArcGIS Data Pipelines のデモの様子について、米国 Esri 社 ArcGIS Blog の「2025 Developer & Technology Summit: ArcGIS Data Pipelines」を翻訳してご紹介します。
ArcGIS Data Pipelines は、データ準備のワークフロー作成と自動化を簡単に行える ArcGIS Online のノーコードのデータ エンジニアリング アプリケーションです。
今年の Developer & Technology Summit では、ArcGIS Data Pipelines プロダクト マネージャーの サラ・ハンソン氏が、ArcGIS Data Pipelines を使用して、視覚化と解析のためにデータの品質と準備を効率的に最適化する方法を紹介しました。
サラ氏は、作物生産量の傾向を研究する農業調査会社に勤務するデータ エンジニアであり、組織にとって必要不可欠な業務に使用する小麦生産量データの準備を任されていると仮定しています。具体的には、USDA の National Agricultural Statistics Service (NASS) Web サイトからダウンロードした小麦生産量データを、収穫量が郡別の列に格納された使用可能なフィーチャ レイヤーへ変換する必要があります。
以下のリンクから動画をご覧いただけます。
Esri video:Web GIS (サラ氏によるデモは5 分 10 秒あたりから)
デモでは、以下の操作について設定されたデータ パイプラインを示しています。
小麦生産量データは、USDAのNational Agricultural Statistics Service (NASS) の Webサイトからダウンロードしたものです。このデータには、1997 年から 2022 年までの郡別の小麦生産量データが含まれており、小麦の総生産量を含む複数の変数が格納されています。これにより、郡ごとに複数のレコードを含む非常に長いテーブルが作成されます。
「マップ内で関連した情報を視覚化する最も良い方法は、ジオメトリー (この例では郡) を含む 1 つのテーブルに変換することです。」と説明しています。目標は、この CSV を変換して、各郡が一意のレコードになり、各年の小麦生産値が別々の列に格納されるようにすることです。さらに、データをマップ上で視覚化できるように、郡フィーチャ レイヤーに結合する必要があります。
複雑なデータ準備を容易にする ArcGIS Data Pipelines の機能のおかげで、この作業は数分で完了したと紹介しています。
今回のワークフローは、Azure Storage コンテナー内に格納されている CSV データセットへ接続することから始まります。「ArcGIS Data Pipelines を使用すると、パブリック URL や、私が使用しているようなクラウド ストレージ、データベースなど、様々なソースからデータを取り込むことができます。」と説明しています。
次に、ArcGIS Data Pipelines に備えられたデータ エンジニアリング ツールを示し、データセットのクリーニング、構築、書式設定、統合に使用できるツールを紹介してから、今回のワークフローで使用されているツールを詳しく説明します。
では、今回のデータ パイプラインで使用している各ツールについて詳しく見ていきます。
データを準備するために、以下のツールを使用しています。
ワークフローで使用しているツールを確認する際に、ArcGIS Data Pipelines に追加された最新の [ピボット] ツールに着目し、「このツールは、長いテーブルを幅の広いテーブルに変換 (行を列に変換) するために使用されます」と紹介しています。ツール構成ウィンドウで、一意の郡 ID を含むフィールド (CountyFIPS) を指定してレコードを定義し、フィールド (Year) で列を定義し、小麦総生産量の値 (Value) でセルを定義します。注記:各郡には小麦総生産量データの値が 1 つしか存在していないため、[集約関数] の設定で [任意] を指定すると正常に機能します。ツールへ接続したテーブルに各郡と年に複数の値がある場合は、[平均] を指定することも良いと考えられます。
[ピボット] ツールのプレビューでは、結果が期待どおりであることを確認できます。この時点で、ワークフローのデータには必要なすべての属性情報が含まれています。ただし、データには郡 ID などの情報が含まれていますが、マッピングや視覚化に使用できるジオメトリー フィールドはまだ含まれていません。これはデータ パイプラインの [結合] ツールで解決できます。
[ピボット] ツールの結果と ArcGIS Living Atlas の郡フィーチャ レイヤーを結合します。一致する属性である郡 ID に基づいて 2 つのデータセットを結合し、空間的または時間的な関係性に基づいて結合することもできると説明しています。
ワークフローの最後の手順で、[結合] ツールの結果が [出力] ウィンドウの [フィーチャ レイヤー] を使用して ArcGIS Online のフィーチャ レイヤーに出力されることを説明します。
「データの出力には、[置換]、[追加および更新] など、対象とするフィーチャ レイヤーの更新をサポートするオプションと、スキーマの変更に対応する最新の上書きオプションがあります。」と説明し、続けて、エディターの右上隅にある実行ボタンを指し示し、データ パイプラインが実行され、準備されたデータがフィーチャ レイヤーに書き込まれました。
終了する前に、使用可能な自動化オプションを示しました。データ パイプラインは、備え付けのタスクのスケジュール設定、ArcGIS API for Python (この時点では実験的なモジュール)、または Microsoft Power Automate (国内サポート対象外) の新しい [データ パイプラインの実行] アクションを使用して、スケジュールに従って実行できます。
デモの最後に、結果のフィーチャ レイヤーのアイテム ページを表示し、[データ] タブに切り替えて、完璧に変換されたデータセットを示しました。
生成されたフィーチャ レイヤーのアイテム ページ
「これが、組織で視覚化と解析に使用できるようになったフィーチャ レイヤーです。Data Pipelines のおかげで、ArcGIS でのデータの品質と準備の最適化がこれまでになく簡単になりました。」と話し、デモを終えました。
本記事では、先月開催された Developer & Technology Summit においてサラ・ハンソン氏が行った ArcGIS Data Pipelines のデモの様子についてご紹介し、デモで使用したデータ、データのクリーニングと構築のために作成するデータ パイプライン ワークフロー、データ パイプライン ワークフローを自動化して組織のデータ統合をさらに効率化する方法について見てきました。
ESRIジャパン製品ページ
米国Esri社 製品ページ
Esri Tutorials
米国 Esri 社 ArcGIS Blog