これからのデータ分析では常識!? 複数のデータを融合させて使う”データフュージョン”とは?
複数の衛星データを組み合わせることで、データの質を向上させるとともに、解析の精度や観測頻度も高めることが可能になるデータフュージョンの具体的な手法とその応用例を紹介します。
衛星から得られるデータの種類と量は日々増加し、それらを利用することで私たちは地球の気候や環境の理解を深めています。
しかしながら、異なる衛星やセンサから得られるデータの性質は様々で、単独での分析ではその全貌を把握することは困難です。
同じ地点を異なる時間や角度から観測したデータ、さまざまな波長で撮影した画像など、これらを一体化して活用することで初めて、より深い洞察が得られます。
これはまさに、データフュージョンがもたらす価値です。
データフュージョンは、様々なデータソースを統合し、新たな価値を引き出すプロセスです。複数の衛星が撮影したデータを組み合わせることで、データの質を向上させるとともに、解析の精度や観測頻度も高めることが可能になります。
この記事では、データフュージョンの具体的な手法とその応用例を紹介します。衛星データの解析における新たな可能性を開くデータフュージョンについて、一緒に学んでいきましょう。
データフュージョンとは
データフュージョンが何かを理解するために、まずはデータフュージョンが持つ価値について知りましょう。
データフュージョンの価値①:相乗効果がある

異なるデータソースやセンサが同じ観測対象について「異なる情報」を提供するという概念です。
例えば、ある衛星はスペクトルの詳細を捉えるのに優れ、別の衛星は空間分解能に優れている時、それらを組み合わせることで、観測対象地域をより包括的に把握することが可能になります。
他には、雲の影響で光学衛星による観測対象のデータの一部に欠損があった場合に、SAR衛星で撮影したデータを利用して補完したり、(1つの衛星では観測頻度が十分でない場合に)別の複数の衛星データを用いることで、擬似的に高頻度な観測を実現してデータを確保することも相補性の概念に含まれると考えます。
データフュージョンの価値②:冗長性

異なるデータソースから得られた「同じ情報」の確からしさを確認するという概念です。
例えば、ある地域について2つの異なる衛星の同時期のデータを比較すれば、そのデータの値の信頼性が高まります。
データフュージョンの価値としては、大きくは上記の2つになりますが、一般的に衛星データの利活用におけるデータフュージョンという用語は前者の相乗効果を期待して実施されることが多いと考えられます。
冗長性としてあまり使われていない理由としては、同様の観測対象を撮影している衛星が複数あったとしても、データの種類(光学画像、SAR、スペクトルデータ等)や分解能、撮影時間やデータの品質(雲による影響等)が異なるため、複数の衛星が(交差検証に足るレベルの)同一の情報を提供することが難しいためです。
そのため、今回の記事では、主に前者の「相乗効果」という概念に沿って、データフュージョンについて解説を進めていきます。
単一の衛星データ利活用における課題
次に、なぜ衛星データの利活用においてデータフュージョンが重要かを理解するために、単一の衛星データの利活用における課題について触れましょう。
①衛星の空間分解能と時間分解能に起因するデータ量不足
衛星によって空間分解能と時間分解能は異なります。高解像度の衛星は詳細な画像を撮影できますが、通常、観測範囲も狭いため、地球全体を1機の衛星で毎日撮影することは出来ません。そこで、近年は同型の衛星を複数機打ち上げることで擬似的に観測頻度を上げる取り組みも行われています(これも広義ではデータフュージョンの一種かもしれません)。
②天候によるデータ品質低下
光学衛星に関しては、雲が観測対象を覆ってしまうと、その領域のデータが得られなくなります。SAR衛星においても、降水や大気中の水蒸気などがデータ品質に悪影響を及ぼしてしまいます。
③観測対象の情報量不足
観測対象に対する総合的な理解が求められるとき、単一の衛星データでは得られる情報に限界があります。
たとえば森林エコシステムの観測では、光学衛星は植生の健康状態や表層の土壌湿度などを把握できますが、林冠の3D構造や樹木の高さといった詳細な情報は得られません。それに対して、SAR衛星はそれらの詳細な情報を提供しますが、植生の健康状態などは把握しきれません。
現在の衛星データの利活用において上記3つの課題が大きく存在する中で、昨今、衛星データのデータフュージョンが注目を集めています。
なお、混同しやすい手段として、generative AIに代表されるような画像の擬似的生成がありますが、画像生成は学習用データ等を大量に用意するために用いられるものであり、データフュージョンとは別の手段になります。
そのため、本記事では画像の擬似的生成に関しては言及をしません。
データフュージョンの目的
課題セクションで取り上げた3つの課題を解決することがデータフュージョンの目的になります。
簡潔に整理すると、以下の3つがデータフュージョンを通して実現できる内容です。
①高空間分解能かつ高時間分解能のデータ取得
②天候条件に左右されにくいデータ取得
③観測対象の網羅的なデータ取得
データフュージョンのアプローチと代表的手法
ここまででなぜデータフュージョンが必要かについては理解が進んできたと思います。
この章では、具体的にデータフュージョンを行う上でどのようなアプローチがあるかをご説明します。
①ピクセルレイヤーでのデータフュージョン
同じ地理的位置をカバーする複数の衛星画像から、直接ピクセル値を組み合わせる方法です。
②特徴レイヤーのデータフュージョン
(衛星以外の)異なるデータソースから抽出された特徴を組み合わせる方法です。
③決定レイヤーでのデータフュージョン
各データソースから独立した推測や分類を行い、その結果を組み合わせることで最終的な結果を得る方法です。


データフュージョンに関する論文紹介
①Exploring the largest known Bronze Age earthworks in Europe through medium resolution multispectral satellite image
[カテゴリー]
・ピクセルレイヤーでのデータフュージョン
[概要]
・埋没した考古遺跡は周囲の植生や土壌に影響を与えるという特徴を活用して、異常が発生している植生の検知を通じて遺跡を検出する実験
[詳細]

・Sentinel-2(10m、可視光および近赤外バンド)とLandsat-9(30m / 15m、パンクロマチック含む)の画像を利用する
・より高解像の画像を用いて地表の特徴を明瞭に識別するためにLandsat-9のマルチスペクトル画像をダウンスケールさせるべく、高解像度のパンクロマチック画像(モノクロだが解像度が高い)と低解像度のマルチスペクトル画像(カラーだが解像度が低い)を統合する複数種類のパンシャープニング手法(画像のピクセル値が直接組み合わせる手法)を試行する
・1つ目のパンシャープニング手法はグラム-シュミット変換であり、高解像度のパンクロマティック画像を使用して、マルチスペクトルバンドの空間解像度を向上させる
・2つ目は、Brovey変換と呼ばれている手法であり、3つのスペクトルバンド(赤、緑、青)を高解像度のパンクロマチック画像と組み合わせ、カラー情報と解像度の両方を強化する

※b(2枚目)はBrovey変換、c(3枚目)はグラム-シュミット変換を使用して解像度15mに変換したLandsat画像となっており、どちらのパンシャープニング技術(変換)も、湾曲した特徴を強調することができている
※本論文では更に2つのパンシャープニング手法(主成分分析、HSV変換)にも取り組んでいる
・以下の画像は、同じ対象エリアに対して擬似カラーコンポジット(カラー合成)という、地表の特徴強調のための別の手法にチャレンジしたケースである

※b:赤、緑、沿岸/エアロゾルバンドを使用し、特定の環境特徴や土壌の変化を強調する
※c:NIR、赤、緑のバンドを使用し、植生や土壌の特徴を強調する
※d:短波赤外線(SWIR-1)、近赤外線(NIR)、青のバンドを使用し、農業地帯や土壌の状態を可視化する
・また、パンシャープン処理した画像に植生指数を適用したケースも実行した

※b: グリーンNDVI(緑色の植物とその他の環境要素との差別化指数)
※c: SAVI(NDVIに土壌の明るさを考慮した指数)
※d: TSAVI(SAVIを改良し、植生と土壌の反射特性の違いをより良く考慮した指指数)
※e: MSAVI(土壌に影響を受けずに植生を正確に評価する指数)
※f: PVI(土壌の色やタイプに影響されずに植生を評価する指数)
※g: VARI(可視光スペクトルでの植生検出に有効な指数)
※h: MTVI2(植生の反射特性を評価するための複雑な計算を用いた植生指数)
※i: SR(NIRと赤バンドの比で植生量と活性度合いを示す単純な指数)
②Seismic urban damage map generation based on satellite images and Gabor convolutional neural networks
[カテゴリー]
・特徴レイヤーのデータフュージョン
[概要]
・高解像度の衛星画像を用いて地震後の都市の建物と道路の損害を検出する実験
[詳細]
・Gaborフィルターを使用して、画像内の特定の方向性とスケールにおけるエッジやテクスチャパターンを抽出する(抽出した特徴は画像内のがれきの存在や形状を示す重要な指標となる)
・Gaborフィルターによって抽出された特徴をCNNに組み込む
・上記手法により、CNNは元の画像データだけでなく、Gaborフィルターによって強調したテクスチャ情報も利用して学習を行うことができる
(ピクセルレベルではなく、テクスチャ/形状レベルの特徴を組み合わせて特定のタスク、今回の実験の場合では損傷マッピングに適用する)
・建物エリアの分類には「がれき」と「非がれき」の2クラス分類を行う比較的シンプルなCNNアーキテクチャを使用する
・道路エリアでは、より多様なオブジェクト(車、がれき、アスファルト、影など)を識別する必要があるため、より複雑なCNNアーキテクチャを採用する

・CNNによるがれきの検出結果を基に、建物の損害度合いおよび道路の損害レベルをする

③Refining historical burned area data from satellite observations
[カテゴリー]
・決定レイヤーでのデータフュージョン
[概要]
・Sentinel-2の画像を使用して、過去の低解像度の衛星データによる焼け跡の過小評価を調査して過小評価された情報修正するための実験
[詳細]
・Sentinel-2から得られた高解像度の焼失面積データ(FireCCISFD20)を「基準データ」として使用する
・他に3つの衛星データソース(MCD64、Fire CCI、C3S)から得られた焼失面積推定値と基準データを比較してバイアス(誤差)を計算する

・環境要因(風速、地形、植生指標など)を含む予測変数を使用してランダムフォレストモデルを開発する(各データソースに含まれるバイアスを理解して修正するためのモデルを構築する)
・モデルを用いて衛星データソースのバイアスを修正し、より正確な焼失面積の推定値を得る

※右側のカラム:ランダムフォレストモデルを使用してバイアスを修正した後の推定値を示している
・上記で開発したランダムフォレストモデルを(学習データとして利用してない)マダガスカルでの火災事例に適用したケースでは、モデルを用いて修正されたデータが修正前の推定値よりもはるかに高い焼失面積を示し、より実際に近い焼失状況を検出することができた

まとめ
本記事では、近年、衛星の機数が増え、衛星データが増えることにより、重要性を高めている「データフュージョン」についてご紹介しました。
複数の衛星データを組み合わせて使える技術が発展することによって、衛星データの価値がさらに向上することが期待されます。