解析・実践・論文紹介 2024/4/30

【2024年3月】衛星データ利活用に関する論文とニュースをピックアップ！

2024年3月に公開された衛星データの利活用に関する論文の中でも宙畑編集部が気になったものをピックアップしました。

宙畑の新連載「#MonthlySatDataNews」では、前月に公開された衛星データの利活用に関する論文やニュースをピックアップして紹介します。

実は、本記事を制作するために、これは！と思った論文やニュースをTwitter上で「#MonthlySatDataNews」をつけて備忘録として宙畑編集部メンバーが投稿していました。宙畑読者のみなさまも是非ご参加いただけますと幸いです。

それではさっそく2024年3月の論文を紹介します。

Transformer-Based Semantic Segmentation for Extraction of Building Footprints from Very-High-Resolution Images

どういう論文？

・Vision Transformer（ViT）ネットワークは、高解像度の衛星画像から物体を識別する際のセマンティックセグメンテーションタスクにおいて、従来の畳み込みニューラルネットワーク（CNN）よりも優れた性能を示しているものの、超高解像度（VHR）画像のオブジェクト抽出にどのように最適化すべきかは、十分な研究が行われてこなかった

・本研究では、衛星画像から建物のフットプリント（形状や面積）を抽出することを目的として、異なるハイパーパラメータ値を持つ複数のViTモデルを設計し、それらの精度に与える影響を比較検証を行なった。

技術や方法のポイントはどこ？

Credit : Jia Song, A-Xing Zhu, Yunqiang Zhu. (2024).Transformer-Based Semantic Segmentation for Extraction of Building Footprints from Very-High-Resolution Images Retrieved from　https://www.mdpi.com/1424-8220/23/11/5166

①パッチ分割

・本ステップでは、高解像度の衛星画像を一定サイズの小さなパッチに分割する

・通常の画像解析とは異なり、Transformerは画像全体ではなく、パッチ単位で情報を処理することで、画像の局所的な特徴を保持し、後続の処理でセルフアテンションメカニズムを効率的に適用する

②線形埋め込み

・各画像パッチを線形変換を通じて高次元ベクトルに変換する

・本変換により、画像の生のピクセルデータが、ニューラルネットワークで処理しやすい形式（数値データ）に変換される

③SwinTransformer

・パッチをさらに小さなウィンドウにグループ化し、ウィンドウ内で局所的なセルフアテンションを適用する

・また、一つのウィンドウから次のウィンドウへと、位置をずらしながら処理を行うことで、隣接するウィンドウ間で情報を共有し、画像全体を通して情報を繋げることができる

・ウィンドウ内のみに計算を限定することで、必要な計算量を減らし、速く処理することが可能である

④ピラミッドプーリングモジュール

・異なる解像度の特徴を複数のレベルで集約し、モデルが画像の大域的な文脈を理解できるようにする

・本ステップは、画像全体の様々なスケールの情報を取り込み、モデルが建物のようなオブジェクトの大きな形状や配置を把握するのに役立つ

⑤特徴ピラミッド融合

・ピラミッドプーリングモジュールからのグローバルな特徴とSwin Transformerからの局所的な特徴を組み合わせることで、より豊富で多層的な特徴表現を行う

⑥セグメンテーションヘッド

・本最終ステップでは、融合された特徴マップを元の画像サイズにマッピングするためにアップサンプリングを行う

議論の内容・結果は？

・2×2ピクセルのパッチサイズ（小さな特徴抽出が可能）と96次元の埋め込み（複雑な特徴表現が可能）を持つモデル（ ‘patch2_em96_win09’モデル）が、全ての評価指標で最高のスコアを達成した

・同じパッチサイズと埋め込み次元を持つモデル間では、ウィンドウサイズが異なっても評価結果が類似しており、ウィンドウサイズが抽出精度に与える影響は小さいことが示された

・つまり、より小さい画像パッチと高次元の埋め込みが、建物抽出の精度を向上させることを示唆している

・パッチに関しては、一般的な4ピクセルや6ピクセルのパッチよりも、2ピクセルのパッチがVHR画像分析で好まれるという結果が示された

各データセットに対する結果
Credit : Jia Song, A-Xing Zhu, Yunqiang Zhu. (2024).Transformer-Based Semantic Segmentation for Extraction of Building Footprints from Very-High-Resolution Images Retrieved from https://www.mdpi.com/1424-8220/23/11/5166

・大規模な建物は、96次元の埋め込みを使用したモデルでより正確に抽出することがわかった

大規模な建物に対する実行結果画像 Credit : Jia Song, A-Xing Zhu, Yunqiang Zhu. (2024).Transformer-Based Semantic Segmentation for Extraction of Building Footprints from Very-High-Resolution Images Retrieved from　https://www.mdpi.com/1424-8220/23/11/5166

・小規模な建物に関しては、より小さい2×2ピクセルの画像パッチを使用したモデルが、4×4ピクセルの画像パッチを使用したモデルよりも優れた性能を発揮した

小規模な建物に対する実行結果画像 Credit : Jia Song, A-Xing Zhu, Yunqiang Zhu. (2024).Transformer-Based Semantic Segmentation for Extraction of Building Footprints from Very-High-Resolution Images Retrieved from https://www.mdpi.com/1424-8220/23/11/5166

#VisionTransformer #ViT #swinTransformer #embedding