2つの時点の差分を衛星データから抽出チャレンジ~ABEJA社による差分抽出アルゴリズム~
ABEJA社に、衛星データの差分抽出アルゴリズムの用途やプロジェクトの裏側、将来の展望を伺いました!
今回は、衛星データプラットフォーム”Tellus”を運営するさくらインターネット社とAIベンチャーのABEJA社による「差分抽出アルゴリズム構築」のプロジェクトについて、プロジェクトマネジャーであるABEJA社の佐久間 隆介氏に、差分抽出アルゴリズムの用途やプロジェクトの裏側、将来の展望を伺いました!
佐久間隆介
2002年 慶應義塾大学法学部法律学科卒業。アビームコンサルティング(当時デロイトトーマツコンサルティング)にて最年少執行役員を5年務めた後、2019年ABEJAへ入社。グローバルビジネス展開、AI活用のプロジェクトマネジメントなどを担当。同年12月よりUse Case事業部長。
(1)AIの社会実装を行うABEJA
ーー まずは、ABEJAの事業内容について教えてください
ABEJAは、ディープラーニング領域を中心としたAIの社会実装事業を専業にするスタートアップ企業です。
弊社は主に2つの事業をしており、AIを開発・運用するためのプラットフォームを開発・提供する”PaaSビジネス”と、すでにできあがっているソフトウェアをパッケージとして提供する”SaaSビジネス”の2つがあります。
今回お話するプロジェクトの取り組みは、PaaSビジネスの一貫です。AIモデル開発が世の中に広がっていくことを目指してPaaSビジネスを行っていますが、単にプラットフォームを用意するだけではなく、AIのビジネス活用が可能であると実感していただくために、様々なユースケースを数多く作っていくという使命も含まれています。
(2)衛星データ×機械学習で新たな価値を創出する
ーー 今回のプロジェクトがはじまったきっかけは?
元々さくらインターネット様、Tellusプロジェクトとは「xDataAlliance」というパートナーシップを組んでいました。さくらインターネット様から「衛星データを使ったビジネスに向けて、Tellusの中で公開できるような有用なアプリケーションを一緒に作っていかないか」とお声掛けいただいたことがきっかけです。
特に我々として興味深かったのが、衛星データの持つポテンシャルは、まさに機械学習を使って最大限に引き出せそうだというところにありました。
画像認識・画像処理などを駆使して、同地点の異なる期間の衛星データを比較することによって、様々な地形の変化、建物や都会の進化度合などがどう移り変わってきたのかということを、遡って分析することができるかもしれない。さらには、未来予測ができるかもしれない……というようなお話に、我々としても将来性やテクノロジーが社会に活きるという感じを得まして、今回の「差分抽出アルゴリズム」プロジェクトがスタートしました。
(3)2つの異なる時点での衛星データの差分を自動抽出する
ーー「差分抽出アルゴリズム」はどんなプロジェクトですか?
今回は、どんな画像がどんな条件下だと差分が明確に出るか・出ないかといったことを検証することが目的で、機能もしくはアプリケーションの中に入れるモデル(アルゴリズム)を作りました。フィジビリティスタディといって、プロジェクトの実現可能性を検証するという段階です。
どういう場合にどういう変化が出そうだということを検証した結果として、レポートの形にまとめています。
実際にどのような画像や条件下で検証したかというと、
● 都会部の写真
● ちょっと都会から離れた郊外の写真
● 自然が多い田舎の写真
という3つのシチュエーションで整理しました。
各シチュエーションでの異なる2時点の画像
衛星データのユースケースは幅広く想定されていたのですが、特に不動産業者向けのマンションの建て替え傾向を分析するユースケースがあり得そうだという仮説があり、上記の3つのシチュエーションにおける建物の自動抽出を少し重点に置いていました。
また、今回は典型的なイベントドリブンで違いが出ているもの、例えば、国立競技場が建てられている最中のある時点とある時点を選んで、屋根が新しく作られているなというように、明らかに人間の目で見て差分が分かるパターンを選んで実際に2つの写真を与えて差分がはじき出せるかということも実施しています。
やみくもにパターンを探すのではなく、新規マンション開発や街の再開発計画と実際の結果が時系列や地域別にまとまっているデータベースやサイト等を用いて、計画的に違いのある部分を先に特定してから、いくつかパターン出しをしましたね。
将来的には、保険業界向けに災害状況の把握も可能になるかもしれないと話しています。
ーー 実際のチーム体制やどの程度時間がかかったのかなど、プロジェクトの詳細を教えてください
すばやくフィジビリティスタディを完了して、その次の「広くユーザー様に使っていただけるようなアプリケーションの構築を目指す」という段階に進みたかったので、レポート作成も含めて2ヶ月弱の期間で実施しました。
体制としては、通常我々がAIのモデル開発を行う際と同様で、2~3人のチームを組みました。チームの構成としては、お客様の要件を整理するプロジェクトマネージャー(佐久間氏)と裏側でアルゴリズムやモデルを作る立場にあたるデータサイエンティスト(ピエール氏)です。
データサイエンティストのピエールは、典型的な機械学習のアルゴリズムに加えて、画像処理やコンピュータビジョン(CV)の実践的経験があり、OpenCVやディープラーニングを活用した画像分類や物体検出などが得意です。言語としては、今回は基本的にPythonが中心です。
PierreLe Meur
2019年 レンヌ第一大学(フランス)応用数学科修了。インターンを経てABEJAにデータサイエンティストとして参画。
また、衛星データを使った取り組みは、弊社として経験が少なかったので、今回は参考論文や衛星データ特有の問題への対処法、データセットの場所などをさくらインターネット様や外部専門家の方にご助言いただき、一緒に取り組ませていただきました。
衛星データ特有の問題としては、取りたい地図や地点の情報に雲が入ってしまう、衛星からの撮影角度の違いでどうしても光加減が違ってしまうなどがありました。こういったものをどうやって対処していくべきなのかという部分は弊社だけでは難しかったですね。
実際に様々な論文を読み解いていって、論文と同様のことができる、もしくは今回のシチュエーションが近いのかといった部分を照らし合わせながら、一部アプローチや知見を取り入れて実装するといったことを試みました。
(4)はじめての衛星データに苦戦
ーー 開発している上で難しいと感じた部分はどこですか?
今回、1番難しいと感じたのは、「データ」の部分です。
与えられた画像をどう処理するかといったアルゴリズム自体は、ある程度弊社が培ってきた画像処理の知見が使える部分もありました。
ただ、我々のような衛星データの素人にとっては、画像データ自体がどういった環境でどのように撮られたのかといった部分をはじめ、想像の及ばない部分がかなり多くあって普段の業務と大きく違うと感じました。
弊社の別事業部が提供している、小売向けのSaaS「ABEJA Insight for Retail」の販売時には、小売店舗にカメラやセンサー等を付けて(来客の)属性分析・動線分析などを行い、店舗ごとの施策の効果検証を行っています。店舗という身近なシチュエーションで且つ現場に実際行ってみて、顔の識別をしたいのであれば、光源の関係からこちらの方向から照らしたほうが良いというようにリアルな撮像環境を含めて試行錯誤できるのですが、データの撮影条件を操作できないというのは新たな難しさでした。
他にも、衛星データ特有のバンドという考え方であるとか、そのバンドによってどの辺りの帯域が強く画像に出るので、植物が強く写り込みやすいとか、衛星データならではのことがたくさんありました。
そもそもどういう形で画像が前処理や加工処理をされて、今我々が使わせていただいているのかっていうところも、あまり詳しく知らなかったので、与えられたデータで何ができるのかを考えることがすごく難しかったですね。
新鮮味のある話が多く、少しずつ衛星データの特徴を理解していきました。
ーー 衛星データと機械学習の相性はどうでしょうか?
画像の取扱いは、すごく難易度が高いと感じましたが、うまく特徴を捕らまえられるようになってきたら、衛星データは圧倒的にデータ量やデータの範囲が大きいので、AIや機械学習との相性は良いと思っています。
特に機械学習は、人間の勘で行うよりも、蓄積されたデータの傾向から適切な解を得られる可能性を帯びているという意味でも、とても相性の良さを感じます。
(5)開発の面白い部分と苦労した部分は表裏一体
ーー 衛星データならではの面白さを感じた点や他に苦労した点はありますか?
① 自由だからこそ問題の特定が難しい、その中で広く多くの方に有用なものを考える
そもそもどういう差分が抽出できると、どういうユーザーにとって使えるものになるのかを考えるというのは面白い部分でもあり、苦労した部分でもあるなと思っています。
元々このお話は受託的な仕事とは違って、特定の企業様の中だけで使うというよりは、公開してより広く多くの方に有用なものを作って提供しようというゴールに向かってスタートしており、誰のどのような課題を解決するのかという点について色々な可能性があるのは、面白みでもある分、問題の種類を特定しづらいんです。
技術的にできる範囲内で、それでも有用なものを探していくという、当然のようなチャレンジがすごく難しかったです。
② 現実的な低分解能な衛星データで、どこまで技術的課題をクリアできるのかを考える
公開されている論文の中には、最先端で高コストをかけて、すごくリッチな高分解能なデータを扱っているものもあるのですが、今回はTellusのプラットフォームに乗せていくといった運用面を考えると、Tellusで扱っている衛星のデータを用いて低コストに抑える必要がありました。あえて論文で利用している衛星データよりも低い分解能の衛星データでできることを探していくという部分にも、チャレンジがありましたね。
③ 変数が多く存在する中で、何を調整すれば1番リーズナブルに課題をクリアできるのかを考える
建物抽出時に、季節による植物の変化が邪魔をするときがあるんです。同じ場所で、建物は変わってないのですが、木々の色が緑から茶色に変わっているといったものですね。
その際に、アルゴリズムのロジックを直すべきなのか、衛星データの(植物の違いはあまり出ないような)バンドを使って直すべきなのかを、ケースバイケースで使い分けて解決する必要がありました。
機械学習の技術的な課題なのか、それとも衛星データの特徴を知っていれば簡単に調整できる課題なのかと、変数がたくさんある中で、1番リーズナブルなところを見つけにいくという点もチャレンジングでした。
(6)難しさを超えた先にある、壮大な将来像やビジネスインパクト
ーー ビジネス化における可能性や今後の将来像・実現したい世界観を教えてください。
まず、差分抽出アルゴリズムを用いた機能またはアプリケーションが実用化したら、色々な場面で使っていただきたい。そして、「社会の中で、人々がどのように行動を変えるか」といった部分が、我々がミッションとして掲げるAIの社会実装事業と銘打っている通り、興味があり貢献したいと思っています。
最終的なゴールイメージは、ユーザーの皆さんが気軽にPCやスマホのような身近な端末、将来的には、スマートグラスのような何らかのもっと小さいデバイスを経由して、自分や社会の動き方の様子や傾向を、ピッと容易に調べることができて、その結果、自分たちのビジネスやプライベートの動き方をどう変えればいいかといったところまで繋がるようなものになることですね。
例えば、マンションの建て替え周期に法則性がある場合、過去何十年か遡った上で、この地域は10年の期間でマンションが建て替わっている、ということが分かれば、ここにまた10年後にマンション作るといいかもしれないというような予測が立てられますよね。
このように、過去の傾向から予測した結果を用いて、アクションに繋がっていくようなものを作りたいと話しています。
金融業や不動産業、それ以外にも、データを使ってビジネスチャンスを窺うような方に使っていただいて、最終的には行動変容といった部分に商機を見出すようなアプリケーションを作りたいですね。
昔から比較的引き合いの多いスマートメディカル、スマートシティといった人間の社会生活や社会行動(医療行為を受ける等も含め)と連動させて、人生をより豊かにできると面白いだろうといった案件があります。
衛星画像は厳密に1人1人の人間の動きは取れない一方で、街の動き方などが、1人1人の人間の行動分析の上にもしくは土台になって、多層的に色々なレイヤーで人間の営みのようなものを予測できる可能性を秘めているというところで接続点がありそうだと感じています。
ーー 衛星データ単体だけでなく、様々なデータとの接続点に可能性があり、包括的に結果を見ることであらゆる傾向を掴むことができそうだと、今の話でイメージが持てました
まさに、衛星データのようなマクロなデータと人々の経済とか社会活動に直結したミクロなデータを組み合わせることでさらにデータが活きると感じていて、実際にこの経済圏でこんなことが起きているとか、この都市でこんなことが起きているといったことが分かって、思ってもみなかったところに実は需要があったみたいな話が少しでも多く見つかれば、とてもワクワクするし、面白いなと思います。
そういった膨大なデータを使った上で、まだ見ぬ、もしくは見えなかったビジネス傾向を捕らまえるといったことに興味があるとか、より新しい使い方を思いつける方々が、恐らく我々のプロジェクトに感度高く反応いただけるんじゃないかと期待をしています。
業界のリアルな専門知識がある方々とコラボレーションして、よりユーザーエクスペリエンスを高めるような動きを行ってすごく便利なものができたら、とても幸せですね。
ーー 現在はto Bビジネスをメインにされていると思うのですが、最初は金融業や不動産業といった、to Bのところから始めていき、ゆくゆくは一般のto Cユーザーにも広がるといいなというイメージですか?
まさにそうですね。少し補足すると、その考え方は、Googleマップに近いかもしれません。Googleマップになる以前は、キーホールという会社でした。キーホール社は、地球のモデル化、画像データ化を行っていて、最初はto Bの世界で売るところからスタートしており、それが最終的には我々のような一般ユーザーも使うようになっています。もし同様にそういったことが実現できるのであれば、すごく面白いなと思っていますね。
ーー ABEJAとさくらインターネット両社での具体的なアクションプランはありますか?
当初から、ABEJAが得意としているディープラーニングという手法を使って、様々な画像データを大量にAIに読み込ませてそこから特徴を出すといった手法も試すべきかといった議論はありました。
ただ、期間が短かったこともあり、データを作って用意する部分が厳しいという話と、写真の中に建物があるかどうかを判別するには建物のラベリング(アノテーション)を行う必要があるのですが、何を差分として抽出したいのかを事前に完全に決めているわけでもないので、何千枚とか何万枚もの建物の写った衛星画像を学習させるのは現実的ではないという話があって、一旦将来の課題として置いていたんです。
しかし、去年末ぐらいに、同じ分解能であるセンチネルという衛星を使ったデータセットが公開されまして、今回のフィジビリティスタディにはちょっと難しいと思っていたディープラーニングアプローチみたいなものが一部使えるかもしれないねっていう議論に変化しつつあるというところは、超直近のアップデートになります。
▼ 驚きの30万枚を超えるデータセット
So2Sat LCZ42: A Benchmark Dataset for Global Local Climate Zones Classification
https://arxiv.org/abs/1912.12171
まだ足元でやらなきゃいけないことがたくさんあって、今はフィジビリティスタディの入口部分というところですが、次のフェーズとして、できる限りより深く検証して、まずはミニマムでもいいので動くアプリケーションを作り切るところをやりたいと思っています。足元が1番大事ですね。
それができたら、ポテンシャルのあるお客様やパートナー様に対してデモを少しずつやっていき、こういう使い方もできるよねと、アイディアベースでより派生的に枝葉分かれしていくような形で可能性が広がっていけるような動きを取りたいです。
ーー これから衛星データを使い始めようとしているデータサイエンティストや衛星データを活用したビジネスを始めようとしている方々にアドバイスをお願いします!
正直、衛星データはあまり身近なものではないので手が出にくいとは思います。
ただ、誰もがアクセスできて、誰もが使い方もよくわかっているデータというのは色々な人があっという間に便利なアプリケーションを作ってしまうんですね。
衛星データのように少し敷居が高いものは、良い意味で参入障壁にもなっていて、ブレイクスルーできるチャンスが結構転がっているタイプのデータじゃないかなと感じています。そういう可能性に賭けるといったところは楽しいですよ!とまず言いたいですね。
衛星データそのものに詳しくなくても、ABEJAが幸運にもそうであったように、専門家の方に助けていただきながら、よちよち歩きで進むみたいな部分もあって良いと思います。
何のために使うかを、何の先入観もなく発想していくということが、すごく大事な分野だなと思いますし、すぐに結果が出る領域ではないと思うので、想像力やアカデミックな探求心を燃やしてドライブし続けられるかどうかが試される領域だと思います。
(7)編集後記
差分抽出アルゴリズムプロジェクトの開発の裏側や将来展望をお伺いしてきました!
衛星データだけでなく、様々な他のデータと組み合わせることで新たな価値を創出できそうだという感覚を得ることができ、ABEJAさんの掲げている「AIの社会実装」というタグラインを具現化したようなプロジェクトの将来展望や世界観にワクワクしました。
そして最近、スーパーシティ構想を実現する改正国家戦略特区法が成立しましたが、スーパーシティを支える根幹のプラットフォームになり得る可能性を秘めているように感じました。
少し敷居が高いものは、良い意味で参入障壁にもなっている、というのはまさにそうだと思います。まだ参入者が少ないブルーオーシャンのうちに衛星データを活用してみるのはいかがでしょうか?
今後も、差分抽出アルゴリズムプロジェクトのアップデート状況を追いかけていきたいと思います!