【2024年2月】衛星データ利活用に関する論文とニュースをピックアップ!
2024年2月に公開された衛星データの利活用に関する論文の中でも宙畑編集部が気になったものをピックアップしました。
宙畑の新連載「#MonthlySatDataNews」では、前月に公開された衛星データの利活用に関する論文やニュースをピックアップして紹介します。
本記事を制作するために、これは!と思った論文やニュースをTwitter上で「#MonthlySatDataNews」をつけて備忘録として宙畑編集部メンバーが投稿しています。宙畑読者のみなさまも是非ご参加いただけますと幸いです。
2024年2月の「#MonthlySatDataNews」を投稿いただいたのはこの方でした!
Transition from positive to negative indirect CO2 effects on the vegetation carbon uptake | Nature Communications #MonthlySatDataNews
高濃度CO2(eCO2)と農作物の関係性についての論文
正の関係にあったのが、今は負の影響になってそうとのこと https://t.co/2TYoWPReIj— たなこう (@octobersky_031) February 29, 2024
それではさっそく2024年2月の論文を紹介します。
Mission Critical -- Satellite Data is a Distinct Modality in Machine Learning
【どういう論文?】
・本論文は、 衛星データの特徴により、一般的な画像や言語データ用に設計された既存のMLソリューションの適用が難しい中で、衛星データに特化した手法(SatML)に対する考え方を整理する
【衛星データの特徴】
①データ形式
・衛星データは通常、高さ、幅、チャネル、時間の4次元を持つ
・また、GeoTIFFなどの様々なデータ形式で保存され、これは標準的な8ビットのJPEG形式に比べ、データが圧縮されていないため高い分解能を提供する
・しかし、既存のMLモデルやライブラリは通常、3チャンネルのRGB画像に最適化されており、マルチチャンネルの衛星画像データの特性を十分に活用できないことが多い
②空間的および時間的スケール
・衛星データは数10cmの小さいもの(例えば、木や車)から数百kmに及ぶ大きなもの(森林や野火、台風)まで、さまざまなサイズの対象を捉えることができる
・時間的パターンは数時間(例: 地震)から数十年(例: 海面上昇)にわたる
③スペクトルチャンネルの多様性
・一般的な画像は、3つのスペクトルチャンネル(赤、緑、青)を持ち、8ビットの色深度を使用する一方で、衛星画像は多くのスペクトルチャンネルと、より高い色深度(例えば12ビットや16ビット)を持つことが一般的である
・また、衛星には様々なセンサーが搭載されており、それぞれが電磁スペクトルの異なる領域から光を捉える(Sentinel-2衛星は可視光線、近赤外線、短波赤外線スペクトルの13チャンネル光学画像を取得するなど)
④グラウンドトゥルースデータの取得難易度
・グラウンドトゥルースデータは、特定の場所を物理的に訪問して、地理的座標と時間に索引付けられた注釈を取得する必要がある
・その結果、組み合わせたい他のデータセットとのデータ結合/利用が困難な場合が多い
⑤モデル評価
・衛星データの機械学習では、データをランダムに訓練セットとテストセットに分けると空間的な連続性や時系列のパターンを無視してしまうなどの問題が発生する
【SatMLにおける有効な考え方】
①一般的な深層学習アーキテクチャとの違い
・一般的な画像に対して設計された多くの深層学習アーキテクチャは、平行移動に対して等価(左右の区別が不要)だが、回転には等価ではない
・しかし、衛星画像の対象物には「自然な」向きが基本的には存在しないため、回転に等価なモデルが望ましい
・また、U-Netなどのセマンティックセグメンテーションモデルは、基本的には大きな受容野(ある層のニューロンが入力画像の程度広い範囲から情報を受け取ることができる)を持っているが、土地被覆マッピングのような一部のSatMLタスクは、より小さな受容野で十分である
②地理的文脈の活用
・衛星データは、地理的な文脈や空間的・時間的構造を豊富に含んでいる
・上記要素をモデルに組み込むことで、より精度の高い予測や生成モデリングが可能になる
・例えば、モデルの損失関数に自己相関(モデルの学習過程でデータ間の相関関係を考慮に入れること)を組み込むことで、地理空間パターンの予測および生成モデリングのパフォーマンスを向上できる可能性がある
③地理的距離に基づく学習
・地理学の第一法則(近いものほど互いに関連が強い)に基づいて、地理的距離に基づく教師なしのトリプレット損失関数を設計する手法を利用する
(トリプレット関数とは、分析の基準となるデータポイントをアンカーとし、
アンカーに地理的に近い類似の特性を持つデータポイントをポジティブ、アンカーから地理的に遠い異なる特性を持つデータポイントをネガティブと定義し、アンカーとポジティブの間の距離を最小限にして、アンカーとネガティブの間の距離を最大化する関数)
④時間的シーケンスの特徴活用
・人工物は一度建設されると地理的位置が変わらないという特性を利用する
A One-Class Classifier for the Detection of GAN Manipulated Multi-Spectral Satellite Images
【どういう論文?】
・本論文では、実際の画像だけを使って学習し、GAN(生成的敵対ネットワーク)によって生成されたマルチスペクトル衛星画像を検出する
【技術や方法のポイントはどこ?】
①用語解説
・オートエンコーダとは、入力を受け取り、そのデータを内部で圧縮(エンコード)してから再構築(デコード)するニューラルネットワークであり、入力データの効率的な表現を学習するのに役立つ
・変分オートエンコーダ (VAE)とは、オートエンコーダの一種で、エンコードされたデータが特定の統計的分布(通常はガウス分布)に従うように制約することで、より一般化された表現を学習する
②使用技術(VQ-VAE)
・VQ-VQEとは、画像を離散的な潜在空間にマッピングし、離散的な点やベクトルを使用して色や形の特徴を区別する手法である
・以下はVQ-VQEのアーキテクチャ全体像である
・通常のVAE(変分オートエンコーダ)は、入力画像を圧縮してから復元することで画像の潜在的な表現を学習する
・そして、VAEは上記過程で連続的な潜在空間に情報をマッピングすることで、任意の情報を滑らかに変化させ、色のグラデーションや形の変化を細かく表現する
・ただし、今回の実験で使用するVQ-VAEは、離散的な潜在空間に情報をマッピングすることで、色を「赤」「青」「緑」に区別するような形で様々な情報を明確に表現する
・本実験ではVQ-VAEを更に2つの手法に分けて実験を行う
・1つ目の手法は、オートエンコーダーが全ての13バンドを一度に処理する
・本手法は、マルチスペクトル画像を構成する全てのスペクトルバンドを含めて一括で分析し、その全体像から画像が生成されたものかを評価できる
・2つ目の手法は、画像の各バンドに対して個別のモデルを訓練する手法である
・生成画像であるかの判断に関してはone-class-SVM(サポートベクターマシン)を用いる
・one-class-SVMは、学習データ(この場合は正常な画像の再構築損失)から学習した「正常」な挙動のモデルを形成し、新しいデータポイント(再構築損失)が正常モデルからどれだけ逸脱しているかを評価する
・逸脱が一定の閾値以上であれば、そのデータは異常(生成画像である)と見なす
【議論の内容・結果は?】
・まず、比較対象として既存手法であるEfficientNet-B4(two-class分類器であり、通常はオリジナル画像とGANで生成された画像の両方を学習する)を用いてデータセットを学習して評価したところ、学習データとテストデータが同じ場合は検出精度が高かったものの、データセットが異なる場合の汎化機能には課題が残った
・次に、13バンド全てを一括処理するVQ-VAE 213モデルと、各バンドごとに訓練された13のVQ-VAE 21モデルを使用したところ、VQ-VAE 21モデルに関して、特にバンド7, 8a, 9, 11, 12において高い検出精度を示し、VQ-VAE 213モデルと比較して一般化能力が高いことを確認できた
Comparison of Random Forest and XGBoost Classifiers Using Integrated Optical and SAR Features for Mapping Urban Impervious Surface
【どういう論文?】
・本論文は、光学データとSARデータを統合しながら、RandomForestとXGBoostを用いて、Urban Impervious Surface(水が浸透しない、地面に染み込まない都市の表面部分)の抽出精度向上にチャレンジする
【技術や方法のポイントはどこ?】
・本手法のアーキテクチャ概要は以下の通りである
①データセット
・Landsat 8(光学データ)とSentinel-1(SARデータ)のデータセットを使用する
・Landsat 8(光学データ)からは、NBWI、VARI、NDBIなどの指標を算出する
※NBWI(Normalized Blue Water Index):青バンドと短波赤外2バンドの比を用いて水域の高い反射率を検出することで、水面と他の地表面を区別する
※VARI(Visible Atmospherically Resistant Index):植生を識別し、植生と非植生領域を分離する
※NDBI(Normalized Difference Built-up Index):近赤外バンドと赤バンドの比を用いて建築物や舗装された面の存在を検出することで、都市化された地域や建物を識別する
・Sentinel-1(SARデータ)からは、テクスチャ特徴(局所分散、不一致性、エントロピー)を抽出する
※局所分散(Local Variance):ピクセルの反射率の局所的な変動を示し、地表の粗さや複雑さを反映する
※不一致性(Dissimilarity):隣接ピクセル間のコントラストを測定し、地表のテクスチャのバリエーションを示す
※エントロピー(Entropy):画像内のランダム性や情報量を示し、地表の多様性や複雑性を評価する
②前処理
・DW(GoogleとWorld Resources Instituteが共同で開発したリアルタイムの地表被覆データセット)、ESA(ESAによって提供される世界規模での詳細な地表被覆データセット)、ESRI(ESRIによって開発された地表被覆と土地利用のグローバルデータセット)からの既存のデータを使用して、地表被覆(LULC)クラスに基づいたサンプリング(正解ラベル付け)を行う
・データセットは水、植生、裸地、Urban Impervious Surface(UIS)の4つのクラスに分類する
③特徴量作成
・Optical Temporal Indicesの作成
– Landsat 8データから派生したさまざまな時系列指数を使用した、地表の特性と変化の分析結果
– 正規化差分指数(NDI)やNBWIなどの指標で地表の様々な特性を捉える
・Textural Featuresの作成
– Sentinel-1のSARデータからテクスチャ特徴をGLCM法を用いて抽出し、地表の空間パターンと異質性を捉える
④分類器作成
・Random Forest(複数の木の結果を集約して最終的な分類決定を行う)とXGBoost(以前の木の誤差を修正しながら学習を進めることで、全体のモデルの予測精度を向上させる)を利用する
【議論の内容・結果は?】
・RF/XGBともに、分類パフォーマンスに関して DW よりも優れていることがわかった
・韓国において、DWは正のサンプル(TP)の識別に苦労したが、RFとXGBはこれを改善し、特にXGBが高い精度を達成した
・マニラにおいて、DWは負のサンプル(TN)の分類で困難があったが、RFとXGBはより良いパフォーマンスを示した
・ジャカルタにおいて、RFとXGBはDWよりも優れたパフォーマンスを示し、XGBが最高の精度を達成した
・ソウル、マニラ、ジャカルタの特定のデータセットにおける複数の評価指標にわたって一貫して高いパフォーマンスを示しているXGBoost が好ましい選択肢と考えられる
・UISエリアの検出に関しては、RF がすべての都市において過小評価する傾向があり、全体的な精度が 79% に達していることを示した
・ 一方、XGBoostは RF を上回り、全体の精度 81% を達成した
Anomalous NO2 emitting ship detection with TROPOMI satellite data and machine learning
【どういう論文?】
・本論文は、船舶に対する窒素酸化物(NOx)排出規制が強化された中で、TROPOMI衛星データと機械学習モデルを組み合わせ、特定した船舶のNOxの排出量を自動で検出することで、将来的には規制に遵守していない可能性が高い船舶を自動で特定する新しい手法を提案する
【技術や方法のポイントはどこ?】
・以下は本手法のアーキテクチャ概要である
①利用データ
・NO2を含む複数の微量ガスのスペクトルを測定するTROPOMIのデータを使用する
・NO2は、船舶から排出されるNOxの光化学反応によって生じる最も重要な成分であり、船舶に対するNOx排出監視に適している
・また、NO2の流れや分布をモデリングするべく、欧州中期天気予報センターが提供する風速データも活用する
・最後に、船舶の位置、速度、進行方向を特定するためにAISデータを利用する
②船舶からの異常なNO2排出を検出するための回帰モデルとプルームセグメンテーションモデル
・TROPOMI衛星データから取得したNO2濃度を、船の位置データ(AIS情報)と関連付けて解析する
・各船舶の関心領域は、その船舶が位置する範囲と衛星データの対応範囲を確認し、ここからNO2データを抽出する
・船舶の特性と運航条件(例えば風速、風向、船の大きさなど)を特徴量として用いて、船舶が発生させると予想されるNO2量を予測するための回帰モデルを訓練する
・次に、セグメンテーションモデルを使用し、船舶からのNO2排出プルームを画像から識別する
・回帰モデルとセグメンテーションモデルの結果を比較し、両モデルによって異常と識別された船舶を特定する
【議論の内容・結果は?】
・回帰モデルとセグメンテーションモデルによるそれぞれの基準値ライン(コンテナ船 + タンカー船)は以下の通りである
・以下の図は異常排出が疑われるコンテナ船の具体例を示しており、各船の関心領域(RoI)と周辺の船がどのように見えるかを示している
・船の追跡軌道がシフトされたものがラインとして描かれており、関心のある船はマゼンタ、他の船はシアンで表している
RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for Remote Sensing Image Semantic Segmentation
【どういう論文?】
・本論文は、高解像度リモートセンシング画像のセグメンテーションタスクに特化した、Segment Anything Model (SAM)をベースとした新しいモデル、RSAM-Seg (Remote Sensing SAM with Semantic Segmentation)を提案する
【技術や方法のポイントはどこ?】
①ベースアーキテクチャ (Base Architecture)
・SAM (Segment Anything Model)は「どんな情報でもセグメント(分割)できる」手法である
・RSAM-Segは、上記手法を基礎として、衛星画像に特化した特別なツールキットを追加する
②エンコーダとデコーダの改良
・エンコーダは情報を読み込んで要点をまとめるレイヤーであり、画像から重要な情報を抽出する
・デコーダは、その要点を元に情報を再構築するためにセグメンテーションマップ(画像を意味のある部分に分割するマップ)を作る
・RSAM-Segは、エンコーダー/デコーダーを改善するために、Vision Transformer (ViT) ブロック内に特別なアダプターを挿入する
③Adapter-Scaleの挿入
・本モジュールは、埋め込みの次元を調整し、衛星画像の特徴をより効率的に扱うために設計されている
・モジュールの1つ目のパーツはDownscaleであり、次元削減のためにMLP(多層パーセプトロン)を使用して、画像から得られた複雑なデータをより扱いやすくシンプルな形に変換する
・2つ目のモジュールは活性化関数ReLuとなっており、処理されたデータに非線形性を加え、データの特定の部分を「オン」(活性化)または「オフ」(非活性化)にすることで、より重要な情報を際立たせる
・3つ目のモジュールUpscaleであり、MLPを使用して最終的なセグメンテーションタスクに適した形にデータを再構築する
④Adapter-Feature の利用
・ViTレイヤー間に位置し、リモートセンシング画像からより関連性の高い特徴を抽出し、それをプロンプトとしてモデルに供給する役割を持つ
・従来のSAMでは手動でプロンプトを入力する必要があるが、RSAM-Segは自動的に適応する特徴を抽出して使用する
⑤高周波成分の活用
・画像から高周波(細部の情報)と低周波(大まかな情報)の両方を抽出し、特に高周波成分を利用して衛星画像の詳細を捉える
【議論の内容・結果は?】
・クラウドシナリオにおいては、RSAM-SegはSAMとU-Netを全ての指標で上回り、SAMに比べて平均で36.7%優れていた
・フィールドシナリオにおいては、RSAM-SegはSAMを全ての指標で上回り、特に全体的な精度で28.5%、F1スコアで56%向上、U-Netよりも18%と10%優れたパフォーマンスを示した
・ビルディングシナリオでは、RSAM-SegはSAMに対して全ての指標で大幅な向上を達成し、U-Netに対しても約5%の改善を確認できた
・ロードシナリオでは、RSAM-Segは全ての指標においてSAMを大きく上回り、特にU-Netと比較してmIoUで約5%改善した
・結果として、特にクラウドシナリオにおいて顕著な改善が見られ、薄い雲のセグメンテーションに強みを持っていることを確認できた
Two-Stream spectral-spatial convolutional capsule network for Hyperspectral image classification
【どういう論文?】
・本論文では、1次元と2次元のカプセルネットワークを組み合わせた新しいモデル(TSCCN)を使用し、スペクトルと空間情報を個別に処理することで、ハイパースペクトル画像の識別性を高める手法を提案する
【技術や方法のポイントはどこ?】
・以下は本手法(TSCCN)のアーキテクチャ概要(1枚目)と通常のCNN手法(2枚目)である
①スペクトルサブネットワークの活用
・スペクトルサブネットワークは、1D Conv-CapsNet(カプセルネットワーク)を利用してスペクトル情報を高次元の特徴ベクトルとして捉える
・特徴的なのは、通常の畳み込み層が局所的な特徴を捉えるのに対し、カプセルネットワークは、画像中のオブジェクトの姿勢や関係性をエンコードすることができる
・つまり、1Dの構造情報マイニングモジュール(SIM)は、カプセル層と協調して動作し、スペクトル情報の長距離(関係性低)依存性をモデル化し、局所的な畳み込みフィルターでは捉えられない幅広いスペクトルコンテキストを取り込む
※カプセル:ニューラルネットワークの中でオブジェクトやその部分の特定のインスタンスを捉えるための集合体であり、位置、サイズ、向き等の情報を含むベクトル形式の出力を生成する
②スペクトル・空間サブネットワークの活用
・スペクトル・空間サブネットワークでは、2D Conv-CapsNetを用いて、スペクトルサブネットワークで得られたスペクトル特徴と、2D畳み込みによって抽出された空間的特徴を組み合わせることオブジェクトの包括的な理解を可能にする
・具体的には、下層のカプセルから上層のカプセルへの情報伝達(行列変換)を行う中で、下層カプセルからの予測ベクトルと上層カプセルの現在の出力ベクトルとの間の相関(内積として計算されることが多い)を評価しながら、上層のカプセルは最も関連性の高い情報を受け取る
③スペクトルと空間情報の統合のメリット
・地表物質の化学的特性とその空間的配置を同時に把握できるため、より精密な識別と分類が可能になる
・異なるスケールと空間における特徴の関連性を捉えることで、モデルは複雑な地表パターンや構造を効果的に識別できる
・カプセル層のベクトル形式の特徴表現により、物体の姿勢や変形に対するモデルの感受性が高まり、変化に対してロバストな識別を行うことができる
③構造情報マイニングモジュール(SIM)とは
・伝統的なCNNは、データの小さな部分を解読するのには適しているが、全体を把握するには、遠く離れたデータ間の関係性を理解する必要があった
・そこで、SIMはスペクトル情報を深く掘り下げ、異なるチャネル間の重要な関連性を見つけ出し、それらの情報を統合してより明確な特徴を作り出す役割を担う
・本プロセスは、一種のアテンションメカニズムである効率的チャネル注意(ECA)を用いて強化され、重要な情報に焦点を当てることで、無駄な情報を減らし、より精度の高い特徴表現を可能にしている
【議論の内容・結果は?】
①Indian Pines(アメリカ・インディアナ州の農業地域)データセットへの適用結果
・本データセットは、Airborne Visible Infrared Imaging Spectrometer (AVIRIS) センサーで収集されており、145×145ピクセルのサイズと、0.4–2.5 µmの範囲で200バンドを持っていて、画像の空間解像度は20メートル、16のクラスが含まれている者の、非常に類似した作物のサブタイプが含まれており、サンプル分布も非常に不均衡である
・3D CNN手法は、特定のクラスを誤って認識しやすく、特に「とうもろこし」「建物-草-木」「ストーン-スチール-タワーズ(非植生物質)」で20%未満の認識精度を示し、OAが73.83%、カッパが0.6955と最も低いパフォーマンスを示した
・SSUN手法とASSMN手法は、より良い結果を出し、OAはそれぞれ76.78%と80.94%、カッパは0.7320と0.7804と改善した
・HybridSN手法は、3D CNNよりも高い精度と視覚的に改善された情報を提供した
・SSRN手法は、AAが81.17%と高く、特に「小麦」「木々」のクラスで良好な性能を発揮した
・MSDN手法は、OAが59.41%と最低で、多くの誤分類とソルトアンドペッパーノイズが生じた(画像上のランダムなピクセルが非常に明るく(ソルト)または非常に暗く(ペッパー)表示されること)
・CEGCN手法は、81.33%のOAと0.7844のカッパを達成し、パフォーマンスが向上したが、少数のサンプルケースでの限界/制約を示した
・CapsNetベースの手法(DC-CapsNet、MS-CapsNet、TSCCN)は、顕著な優位性を示した
・特にTSCCNは、最高のOA 90.49%、カッパ 0.8885を達成し、限られたサンプルで高いレベルの分類精度を示した
②他データセットの紹介
・2つ目のデータセットは、アメリカ・フロリダ州のKSCの都市・農村地域を撮影したもので、512×614ピクセルのサイズと、品質が悪いバンドを取り除いた176バンドを持っていて、空間解像度は18メートル、13のクラスが含まれている
・3つ目の画像は、アメリカ・サリナスバレーの農業地域を撮影したもので、512×217ピクセルのサイズと、20の品質が悪いバンドを除外した204バンドを持っていて、この画像の空間解像度は3.7メートル、16のクラスが含まれている
③結論・議論
・TSCCNアルゴリズムは、他の深層分類手法と比較して全てのHSIで最高の性能を達成し、少ないサンプル数での分類においてその効果を示した
・3D CNNはサンプルが豊富な場合には効果的だが、少ないサンプルでは性能が落ちる
・SSUNとASSMNは、2Dと3Dの畳み込みを組み合わせたHybridSNや、深いネットワーク構造を持つSSRNが3D CNNを上回り、特にSSRNはKSCデータセットで高い性能を示した
・MSDNは複雑さと大きなパラメータ量により、少ないサンプルでの性能が悪化する
・カプセルネットワークベースの手法(DC-CapsNet、MS-CapsNet)は、少ないサンプルで高い性能を発揮し、特にTSCCNはすべてのデータセットで最高の結果を達成した
・ほとんどの深層分類器は少ないサンプルの条件下で低い処理時間を示すが、3D CNNやHybridSNはオーバーフィッティングの影響で処理時間は短い
・SSRNは深いネットワーク構造のため、他のCNNベースの方法よりも処理時間が長くなる
MSDNは大きなモデル複雑性のために時間がかかる。
・DC-CapsNetやMS-CapsNetは、カプセルの利点を活かしつつ、適度な処理時間で高い性能を示す
・TSCCNは、SIMの導入によるわずかな時間増加にもかかわらず、実用的な処理時間で最高の性能を提供する
・1D Conv-CapsNetは単独で使用すると性能が低いが、2D Conv-CapsNetと比較すると空間的特徴の重要性が明らかになる
・SIMを組み込むことで、スペクトルサブネットワークとスペクトル・空間サブネットワークの両方で分類精度が向上する
以上、2024年2月に公開された論文をピックアップして紹介しました。
皆様の業務や趣味を考えた時に、ピンとくる衛星データ利活用に関する話題はありましたか?
最後に、#MonthlySatDataNewsのタグをつけてTwitterに投稿された全ての論文をご紹介します。
Two-Stream spectral-spatial convolutional capsule network for Hyperspectral image classification
Decoding seasonal variability of air pollutants with climate factors: A geostatistical approach using multimodal regression models for informed climate change mitigation
来月以降も「#MonthlySatDataNews」を続けていきますので、お楽しみに!