東日本大震災行方不明者捜索活動協議会2020
2. 名取市閖上地区捜索活動 - ドローン映像等の処理による捜索活動サポートの試み
豊橋技術科学大学 金澤研究室 今井裕太郎
本日の内容
①ドローン映像を用いた砂浜の時間的な形状変化の検出(今井裕太郎)
②深層学習による砂浜画像からの漂着物の検出と識別(水原宝永)
③地中レーダーの補間による地中情報の密な可視化(徳重海都)

ドローン映像との処理による捜索活動サポートの試みと題しまして、豊橋技術科学大学の今井が発表させていただきます。
本日はこちらの3つのトピックについて紹介します。
1つ目と2つ目がドローン映像を用いた砂浜表層の捜索補助に関するトピックです。
3つ目が地中レーダーを用いた埋没物の捜索に関するお話となります。
では1つ目のドローン映像を用いた砂浜の時間的な形状変化の検出について紹介いたします。
ドローン映像を用いた砂浜の時間的な形状変化の検出
- 背景 -
漂着物の捜索
・人手による砂浜表層の漂着物の捜索と,ドローンによる捜索活動補助の試みが行われている。
・砂浜表層の捜索において、台風等による砂浜の形状変化情報の把握は重要となる。


問題点
砂浜の形状は日々変化し,形状変化の中で,前回捜索した箇所でも漂着物や遺失物が存在する可能性がある.
- 目的と応用 -
目的
砂浜の形状変化をリアルタイムに可視化することで,捜索の効率の向上を図る。
応用
捜索現場でドローンを飛行させ,予め取得した前回の捜索時の砂浜形状との変化を表示することで,捜索する箇所を絞ることができる。

発見したいポイントの例
砂浜の形状変化をリアルタイムに可視化し、捜索する箇所を絞ることで、捜索効率の向上を図ります。例えば、前回捜索した時点で右下の図のように何もなかった場所に、時間経過により左下の図のように砂が盛り上がった箇所があります。このような地形が変化した箇所を見つけることで、この下に埋もれてしまっている漂着物や、遺失物を見つけられる可能性があります。
- 手法 -
異なる時間で生成された2 つの砂浜形状の位置合わせを行い,形状の変化を3 次元で可視化する。

前回の捜索でドローンを飛行させ予め取得しておいた砂浜形状と、現在の捜索で得られた砂浜の形状の二つを比較して変化を可視化します。方法については、まず図のように前回の捜索で取得したドローンの映像から、オフラインで密な3Dのデータとして、砂浜の形状を保持しておきます。そして、捜索現場でドローンを飛ばしてオンラインで疎な砂浜3Dデータを取得します。
この2つの砂浜の3Dデータを位置合わせすることで、砂浜の形状変化を可視化します。
位置合わせを行うときに、時間経過により形状が変化してしまっていることと、復元方法の違いによる密度の違いが問題となり、この二つの違いをうまく吸収して位置合わせを行う必要があります。
10月2日
10月27日
- 位置合わせ法 -
位置合わせの方法
異なる時間で復元された砂浜形状を以下の手法を用いて位置合わせを行う.
・NDT 法を用いた位置合わせ
・SHOT 特徴量を用いた位置合わせ
NDT(Normal Distribution Transform)
3次元データの位置合わせに用いられる手法,点群データをボクセルで分割し,各ボクセル内の正規分布を用いて点群のマッチングを行う。
→ 比較的大きな領域に着目
SHOT(Signature of Histograms of Orientations)
3次元特徴量の一つ.キーポイントの周辺を球形の構造基づき32 個の部分領域に分割し,各領域に法線方向のヒストグラムを記述する。
→ 小さな領域に着目
今回はこちらのNDTとSHOTと呼ばれる二つの手法を用いて、異なる時間で生成された砂浜の位置合わせを行いました。
NDTは砂浜の形状を立方体で等間隔に区切り、比較的大きな領域に注目して位置合わせを行います。
SHOTはキーポイントと呼ばれるある一点の周辺について、細かい領域分割し、小さな領域に着目して位置合わせを行います。
- NDT法による位置合わせ結果例 -

GPS を用いた位置合わせ(橙色:8/10 撮影,青色:8/18 撮影)

初期位置1

位置合わせ結果1

初期位置2

位置合わせ結果2
1番上の図がGPSと手動により位置合わせを行った結果です。
オレンジで囲まれている部分が、去年の8月の10日に撮影していただいたドローンの映像から、復元した砂浜の形状になります。
青の部分が約一週間後、同じ場所で8月18日に撮影された映像から復元された砂浜の形状になります。
今回はこちらを正解データとして評価を行ないました。
NDT法による結果は、右の二つの図になります。
見て分かる通り、初期位置より外れてしまっており、うまく位置合わせができていないことが分かります。
左下の図の例は一方の砂浜を回転させたもので、右下の結果を見ると、こちらも回転してしまっており、初期位置のズレによる影響も大きく受けてしまっています。
- SHOT 特徴量による位置合わせ結果例 -

位置合わせ結果1 (視点1)

位置合わせ結果1 (視点2)

位置合わせ結果2 (視点1)

位置合わせ結果2 (視点2)
黄色の部分が初期位置で赤色の部分が位置合わせの結果になります。
結果を見てみると、NDTよりは精度が高くなっていますが、細かく見てみるとズレがあり充分な精度ではないことが分かります。
しかし、右下の図の例のように、先程と同様に一方を回転させた場合でも同じような位置に位置合わせされており、初期位置による影響は受けづらいということが分かりました。
- 結果と考察 -
NDT 法よりSHOT 特徴量を用いた位置合わせの方が良い結果となった.
→ 砂浜点群はほぼ平面のため,グリッド間の分布同士ではうまく形状の特徴が捉えられなっかたと考えられる.

・SHOT についても精度は不十分のため,さらに改善が必要となる.
→ 複数のスケールで探索したり,周囲の高さの変化を見て適切なキーポイントを選択したりする.
・処理速度についてはNDT 法が約20 分程度,SHOT 特徴量を用いた位置合わせは約1 分程度となった.
→ 前処理を含めてデータの格納にkd-tree を用い,マッチングにはFANNを用いて高速化を図る.
・2 つの点群を重ねただけでは形状の変化がわかりにくいので表示には工夫が必要となる.
NDTの精度が悪くなった理由としては砂浜の点群がほぼ平面であるため、大まかな区切った領域間で分布による特徴が捉えられなかったことが考えられます。図のような特徴が顕著な3Dデータで試してみると、高い精度が得られることを確認しています。
SHOTについてもNDTよりは高い精度となりましたが、要求される精度に達していないため、さらに改善が必要となります。
例えば、複数のスケールで探索し、注目するキーポイントについてもうまく特徴を表せるような点に絞り込むといったような処理が必要になります。
処理速度については、NDTによるものが約20分程度で、SHOTによるものが約1分程度となりました。
前処理なども含めて、データの格納方法やマッチングのアルゴリズム手法を改善することでリアルタイム性の獲得が必要になります。
今回は二つの点群を並べて表示しただけで、あまり形状の変化が分かりにくかったので形が変わっている箇所に色を付けることで、ユーザーに分かりやすい表示が必要になってくると思います。
- まとめと今後の課題 -
まとめ
・各種3 次元データの位置合わせ手法により,異なる時間で生成された砂浜形状の位置合わせを行った.
・実験の結果,現在の手法では精度,処理速度ともに不十分であるのでさらなる改良が必要となる.
今後の課題
・複数のスケールでSHOT 特徴量を計算することで局所的及び大域的な形状を把握し,精度の向上を図る.
・処理速度の高速化によるリアルタイム処理化.
・Realtime SfM System への組み込み.
現状では精度、処理速度ともに不十分なので、実用化に向けて精度と処理速度の向上を図ることが必要になります。
深層学習による砂浜画像からの漂着物の検出と識別
- 目的と応用 -
目的
ドローンによる砂浜画像から漂着物を検出することで捜索の効率化を図る.
応用
捜索現場でドローンを飛行させ,空撮映像から重要な表層物の識別を行うことで,表層の捜索を容易にする.

機械学習による漂着物の検出

検出した漂着物の可視化の例
次に2つ目のトピックの深層学習による砂浜画像からの漂着物の検出と識別について紹介いたします。
こちらは、ドローンによ って撮影した砂浜の画像から漂着物を検出することで、操作の効率化を図ります。
応用としては、このように捜索現場でドローンを飛行させ、そこから漂着物を識別することで、右下の図のように漂着物の場所を映像に表示します。
- 手法 -
・人工物/自然物/砂/鶏の骨の4クラスで識別する.
・砂の影響を小さくする3つのアプローチをそれぞれとる.
アプローチ1:AE による差分画像の生成
AE による異常検知を応用する.
・AE から差分画像を生成する事で砂を消し,漂着物を浮かび上がらせる.
アプローチ2:GradCAM による画像の重み付け
GradCAM で物体の位置を調べ,ヒートマップで重み付けする.
・漂着物に強い重みを乗せる事で識別を容易にする.
アプローチ3:セグメンテーション
セグメンテーション画像を用い,砂かそれ以外の物体かを明示的に学習させる.
・セグメンテーションにはpix2pix を用いる.
四つのクラスで識別行います。
砂による影響を防ぐために三つのアプローチを取りました。
1つ目はAEと呼ばれるものを用いて、砂の部分を消して漂着物のみを浮かび上がらせます。
2つ目はGradCAMと呼ばれるものを用いて、漂着物に強い重みをのせることで識別を容易にしました。
3つ目はと先程の2つの物とは異なり、砂浜と漂着物の両方について明示的に学習を行ないました。
- 各アプローチの概要 -
AE による差分画像の生成

・AE からの差分画像を生成
・ブロックごとにCNN で識別
GradCAM による画像の重み付け

・GradCAM で注目領域に重み付け
・ブロックごとにCNN で識別
pix2pix によるセグメンテーション

・セグメンテーション画像を生成
・画素ごとにしきい値で識別
全てAIを用いて識別行いますが、図のようにそれぞれ用いるネットワークの種類が異なっています。
- 比較提案手法一覧 -
以下の6つの手法について精度を比較する.
アプローチ1
提案手法1:CAE+CNN
提案手法2:CAE(黒)+CNN
提案手法3:VAE+CNN
提案手法4:VAE(黒)+CNN
アプローチ2
提案手法5:GradCAM+CNN
アプローチ3
提案手法6:pix2pix によるセグメンテーション
6つの手法について精度を比較しました。
アプローチ1については、2種類のネットワークと二つの学習方法についてそれぞれ組み合わせた4つの手法を用います。
使用したデータの数は表の通りになります。
ブロック画像とは一つの画像を細かく分割したものです。
鶏の骨については、実際に砂浜に設置して撮影した物と、砂浜の画像と鶏の骨の画像の合成画像の2種類を用います。
人工物については、ペットボトルや牛乳などの人工物が写っている画像を用います。
自然物については、岩や木の枝などの表層物、砂については砂以外何も映っていない部分を用います。
- 使用データ -
使用データブロック数

ブロック画像の例

- 識別結果:手法1(CAE+CNN) -


・物体も綺麗に復元されてしまった.
・CNN 単独の精度を下回った.
・鶏の骨(合成) は高い精度だが,それ以外は砂への誤分類が多い.
それでは6つすべての精度について報告します。
手法1はクラス別の識別結果が60%と低い精度となっています。
右の差分画像では、漂着物のみが浮き上がっていくことが期待されたのですが、真ん中の復元画像を見ると、全く同じような画像が復元されており、うまく差分が取れてないことが分かります。
- 識別結果:手法2(CAE(黒)+CNN) -


・ブロックごとの識別では最も高い精度が得られた.
・CNN 単独の精度を僅かに上回った.
・期待通り物体が差分画像にはっきり残り,識別が容易になったと思われる.
手法2については、クラス別の平均が約70%となっており、精度の向上がみられます。
生成された画像を見てみると、差分画像に漂着物がうまく浮き上がってきており、1番上の例を見ると、差分画像でうまく木の枝が浮かび上がっています。
- 識別結果:手法3(VAE+CNN) -


・大きな物体は少し復元されたが,それ以外はほぼ平坦な画像が復元された.
・CNN 単独の精度を下回った.
手法3については、先ほどの二つの手法の中間的な精度となっており、生成された画像を見ても手法2よりはうまく復元できていませんが、手法1よりは漂着物が浮きあがっていることが分かります。
- 識別結果:手法4(VAE(黒)+CNN) -


・画像の復元が全く出来なかった.
・CNN 単独の精度を下回った.
・VAE が画像の分布を学習できなかったと思われる.
手法4については、先程の手法と精度はほとんど変わっていませんが、復元された画像を見てみると、左の図のように灰色一色の画像となってしまっており、うまく学習が行えてないことが分かります。
- 識別結果:手法5(GradCAM+CNN) -


・砂の半数以上が自然物に誤分類され,CNN の精度を下回った.
・小さな枝などは真っ黒な画像が生成されており,砂と見分けがつかなかったと思われる.
手法5についてはクラス別平均が63%となっています。
先ほどまでの手法とは異なり、重み付け画像において漂着物に注目する事が期待されます。
結果を見ると、うまく漂着物に重み付けされており、2つ目の例はペットボトル、3つ目の例でも木の枝に注目していることが分かります。このように上手く学習はできていましたが、大幅な精度の向上は見られませんでした。
- 識別結果:手法6(pix2pix) -


・最も高い精度が得られた.
・粗さはあるものの,物体の形が見て取れる.
最後の手法6については、6つの手法の中で一番精度が良く77%となりました。
先程までの手法と異なり、画素毎に判別を行っているので、左の生成画像を見ると少し粗さはありますが、漂着物の外形は見て取れます。しかし、画素毎に判別しているので、実用化の際は検出した画素の集まりを一つの物体として認識する処理が必要になります。
- 識別結果:accuracy の比較 -
クラスでデータ数が異なるため,クラスごとのaccuracy の平均を比較する.

・手法1~5 ではCNN 単独と同程度の精度しか得られなかった.
・手法6 は最も高い精度で識別できた.
6つの手法の精度を比較します。
手法6のpix2pixを用いたものが、全体、クラス別平均ともに高い結果となり、それ以外の手法については全て同程度の精度となっています。
- 鶏の骨(実画像) の識別結果 -

・手法1 (CAE+CNN) は鶏の骨(実画像) でも非常に高い精度を得た.
・それ以外の手法は精度が非常に低くなった.
鶏の骨の識別精度については手法1が最も高い精度を得ており、それ以外の手法については非常に精度が低くなっています。
- 一枚の画像からの検出結果:手法6(pix2pix) -

砂浜一枚の画像から漂着物を検出しました。
右下の画像が検出結果で、正解画像左下の木片がうまく検出できていることが分かります。
ただ、先ほども話したとおり、画素毎に判別を行っているので、実用化の際は緑色で検出されたものから漂着物の場所をユーザーに知らせる処理が別途必要になります。
- まとめと今後の課題 -
まとめ
・深層学習による異常検知の応用,重要領域の重み付け,セグメンテーションの3つのアプローチで砂浜の漂着物識別を行った.
・結果,pix2pix によるセグメンテーションで最も高い精度が得られた.
・セグメンテーション画像を教師データに用いた事で物体の位置と形状を明示的に学習できたためと考えられる.
今後の課題
・検出した漂着物を一つの物体として表示
・処理の高速化
今後の課題として、先程の処理の追加とリアルタイム性の獲得が挙げられます。
地中レーダーの補間による地中情報の密な可視化
- 背景 -
埋没物の捜索
・地中レーダーの反応に基づいて埋没物の捜索を行う.
・進行方向に平行な断面的な地中情報が取得できる.

問題点
地中レーダは真下周辺の断面図の情報しか得られず,測線の間隔を限りなく狭くする必要がある.
→ 地中レーダによる捜索には時間と手間がかかる.
最後のトピックの地中レーダーの補間による地中情報の密な可視化について紹介します。
埋没物の捜索では、図のような地中レーダーから得られる情報に基づいて、その反応があった場所を人手で掘り起こし捜索します。
問題として、地中レーダーによる地中内部の計測には、時間と手間がかってしまいます。
- 目的と応用 -
目的
地中レーダ情報を補間し,3 次元的に密に可視化することで,捜索に役立てる.
応用
地中レーダーによる間隔を広げ,捜索の時間や手間を軽減する.
密な情報で可視化することで,内部状態が把握しやすくなる.

そこで、地中レーダーの情報を三次元的に密に可視化することで捜索効率化を図ります。
右下の図のように測定の一部分を補間することで、計測の間隔を広げて、捜索の時間や手間を軽減します。
加えて、密な情報で三次元的に可視化することで、より地中内部の状態が把握しやすくなります。
- 手法 -
地中レーダ画像を,pix2pix をベースとしたGAN を用いて補間し,3 次元的に可視化する.

図のように、地中レーダーを使って実際に測定された実測画像の間に補間画像を埋め込むことによって、密な可視化をおこないます。
補間画像の生成はpix2pixを用います。
- 深層学習による画像補間 -
補間の方法
画像対画像の変換を行うpix2pix をベースとしたGAN を用いる.
→ 地中レーダ画像の補間画像を推定する.
ネットワークの構造
画像2 枚から中間の画像を生成するように学習し,補間画像を生成する.

ネットワークの構造については、三つの連続する画像のうち、端っこの二つの画像から真ん中の画像を生成するように学習を行ないました。
- 地中物体の内挿部の例 -


精度について線形補間と呼ばれる手法と比較しました。
線形補間は2つの画像の平均値をとって真ん中の画像を生成します。
まず、両端の地中の情報に物体の反応がある内装部での精度についてです。
下の表の値は、正解画像との差であり、この数値が小さいほど精度が良いことを表します。
表の下 1行のように、少ない差で線形補間の方がわずかに提案法の精度を上回る結果となりました。
しかし、正解画像の中央より少し上の黄色が赤色で囲まれている部分について、2つの生成画像について比較してみると、提案法の方が線形補間よりうまく再現できていることが分かります。
- 地中物体の外挿部での推定例 -


次に物体が途中で反応切れてしまっている場合、つまり片方に物体の反応はあるけど、もう片方に舞台の反応がない場合、外挿部での例について紹介します。
こちらの場合では、先ほどと大きく差をつけて線形補間より提案法がうまく復元できることが分かりました。
生成された画像を比較してみても、一目瞭然で提案法の方が線形補間より綺麗に補間ができていることが分かります。
- グレースケール化画像との比較 -


グレースケール化画像については以下の表のような結果となりました。
- 可視化の例 -

画像を補間した物とそうでないものについて3次元上で可視化しました。
左右の図で比較すると、補間画像ありの方が補間画像なしの場合と比較して形状が分かりやすくなっています。
- 結果と考察 -
・内挿部では線形補間,外挿部では提案法の精度が高くなった.
→ 提案法による補間は端部分を学習しているため,外挿部を推定し易かったと考えられる.
・グレースケール画像より疑似カラー化画像のほうが精度よく推定できた.
→ 疑似カラー化画像による補間は,色があることで変化を抽出し易かったため精度が良くなったと考えられる.
・補間ありの可視化のほうが埋没物をわかりやすく表示できた.
- まとめと今後の課題 -
まとめ
・pix2pix をベースとしたGAN を用いて地中レーダ画像の補間と,それらの結果を加えた可視化の比較を行った.
・提案法を用いた補間は,より重要な部分である外挿部においてより誤差の少ない画像を生成できることを確認できた.
・測線間の補間をすることで,地中情報のわかりやすい表示が可能となった.
今後の課題
・異なるシーンに対する教師データの数を増やすことによって,汎化性能の向上を図る.
・ポリゴン化して表示することでより地中情報をわかりやすくする.