MIRU2024参加レポート

MIRU2024参加レポート

GO株式会社は、2024年8月6日(火)から8月9日(金)の4日間熊本で開催された「MIRU2024(第27回画像の認識・理解シンポジウム)」のシルバースポンサーを務め、企業ブースの出展を行いました。森本・福井・小林・米田が参加してきましたので当日の様子などを紹介していきます。

MIRUとは

画像の認識・理解シンポジウム(MIRU)は、画像の認識と理解技術に関する国内最大規模の会議です。本年は熊本城ホールで開催されました。参加者数は昨年と同規模約1591名、論文投稿数は100件以上増加の629でした。

企業展示

GOの企業展示ではコンピュータビジョンがコア技術として使われているAIドラレコを使った交通事故削減支援サービス『DRIVE CHART』と地図情報メンテナンスを効率化することを目的とした「道路情報の自動差分抽出プロジェクト」の紹介を行いました。多くの方に足をはこんでいただき、そして技術的なディスカッションを行うこともでき大変有意義な場となりました。ありがとうございました。

気になった発表

Vision-Language モデルを利用した 画像分類におけるバイアスの言語的抽出と緩和

趙在瀛, 熊野創一郎, 山崎俊彦 (東大)

Vision-Languageモデルを用いたバイアス検知、緩和の研究です。
既存研究ではデータ拡張やリサンプリングなどの工夫によりバイアス検知、緩和を行っています。しかし実社会でバイアスを事前予測するのは困難で事前知識を利用した研究が広く行われています。 Vision-Languageモデルを用いた既存研究では、色などの画像領域で表現できない属性に対して適用できないなどの問題が知られています。本論文では訓練データのキャプションをVision-Languageモデルによって生成し、キャプションに偏って存在する単語を検知することでバイアス属性を言語的に抽出する検知方法を提案しています。これにより画像領域として適切に分離できない属性 (色や顔の表情) を反映することができるようになります。

多様なデータセットを作成するためにバイアス検知は重要です。一方でヒューリスティックな方法も多いため、今後実務でバイアス検知、緩和するための良い知見になりました。

Multi-Object Trackingを用いた道路損傷検出

富谷竜一 (神戸大), 勝部芳久, Roversi Fernando, 小村淳浩 (イーグリッド), 高島遼一, 滝口哲也 (神戸大)

道路インフラの自動点県を目的とした道路の損傷を検出する研究です。 既存のデータセットによる精度測定方法における問題点を指摘し、より実際の状況を想定した研究となっており、実際にドライブレコーダーを利用して撮影した動画データなどを利用しています。 処理フローとしては、検出アルゴリズムにGLIP、追跡アルゴリズムにBYTEを利用しています。実際の場合では検出するだけですと他フレーム間との関連性がわからないため検出数を正確にカウントできません。そのため追跡処理を行うことで、動画から正確な検出を行えるような工夫を行なっています。 GLIPはVision-Languageモデルで、任意のテキストと検出物体を紐づけられるようなモデルで拡張性があります。BYTEは、画像情報を使わずフレーム内の位置情報のみを利用したアルゴリズムとなっております。

GOでもドライブレコーダーのデータを扱うことが多く、このような実際の状況を想定した研究は良い知見になりました。

Active Domain Adaptation with False Negative Prediction for Object Detection(招待講演)

Yuzuru Nakamura, Yasunori Ishii (Panasonic Holdings), Takayoshi Yamashita (Chubu Univ.)

ドメイン適用の分野では、ターゲットドメイン内の限られたサンプルを用いて異なるドメインにモデルを適応させます。 この研究では、不確実性と検出不可能性を同時に考慮するアクティブラーニングのアプローチを使用して効果的にデータをサンプリングすることで、少ないラベル付きデータで異なるドメインでの物体検出モデルの性能を向上させることができます。 興味深いと思った点としては、物体検出におけるドメイン適応の問題点である未検出に着目しているところです。 本来、異なるドメイン下での未検出は予測が難しいものですが、半教師あり学習の枠組みとFNPM(False Negative Prediction Module)と呼ばれる未検出物体の数を予測するモジュールを使ってこの問題に対処しています。

GOでも物体検出モデルを開発しており、ドメイン適用による精度向上の参考となる知見を得ることができたと考えています。

画像超解像における学習データ構築の再考

大谷豪 (慶大, 産総研), 田所龍 (産総研), 山田亮佑 (筑波大, 産総研), Yuki Asano (Univ. of Amsterdam), Iro Laina, Christian Rupprecht (Univ. of Oxford), 井上中順, 横田理央 (東工大, 産総研), 片岡裕雄 (産総研), 青木義満 (慶大, 産総研)

従来の画像超解像分野の研究では、高解像度かつ圧縮ノイズを極力含まない高品質な画像で構成されているデータセットを用いることが超解像の成功の鍵だと考えられてきました。 この研究では、画像超解像データセットにおける品質・多様性・解像度のそれぞれの観点を再考しました。 その結果、画質と被写体の多様性を定量的に定義しフィルタリングすることで低解像度のweb画像を用いて既存のデータセットよりも高い精度を示すことができました。

AI開発において、コストをなるべく抑えながら高品質なデータセットを作成することは作成するモデルの品質に大きく関わってきます。 GOでもData-Centric AIと呼ばれるデータに着目したAI開発を行なっているため、超解像タスクの成功の本質を捉えてデータを設計する本研究の着眼点は興味深いと感じました。

SimGlue: スケールや回転変化の大きい画像ペアに対する Transformer を用いた特徴点マッチング

松本侑也, 小倉一峰, 中野学 (NEC ビジュアルインテリジェンス研究所)

特徴点マッチングにおける既存のTransformer系のマッチャーは位置エンコーディングが特徴点の絶対位置、あるいは相対位置に基づいています。 そのため、スケールや回転変化によって画像間の位置座標系が大きく異なる場合に、マッチするべき二つの特徴ベクトル (descriptor) に対して、それぞれ全く異なる位置関係がエンコードされてしまい、マッチしなくなってしまうという問題があります。 この研究では画像間の幾何変換を相似変換と仮定し、画像間の特徴点の位置座標の相似変化がなくなるように座標を正規化し、正規化した座標に対して位置エンコーディングを行うことで、スケールと回転変化に対して頑健なマッチャーを提案しています。 相似変換を仮定したマッチャーの応用先が気になるところですが、橋梁の点検という具体的な応用も示していました。

実応用を見据えて取捨選択を適切に行なうことで精度向上を達成する、というのはGOの普段の研究開発でも意識していきたいと感じました。

Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under Manhattan World Assumption

Nobuhiko Wakai, Satoshi Sato, Yasunori Ishii (Panasonic Holdings), Takayoshi Yamashita (Chubu Univ.)

この研究では魚眼カメラの内部パラメータと姿勢の推定を行なっています。姿勢推定のために消失点を用いていますが、消失点が画角内に必要な個数写らないこともあります。この問題に対処するために補助対角点を提案し、補助対角点を用いて消失点の個数を補うことで、顕著な姿勢推定の精度向上を達成しています。 また、消失点の推定と人の姿勢推定は三次元空間上で幾何学的関係があるという類似性があります。この類似性に着目し、人の姿勢推定によく用いられているヒートマップを消失点の推定に応用させています。

GOでも消失点を用いて車間距離推定などを行なっており、補助対角点や消失点推定に関する部分などで今後の参考となる知見を得られました。

さいごに

GOとしてのMIRUへの参加は今年で3回目です。年々コンピュータビジョンの発展を目の当たりにするのは大きな刺激になります。また多くの方とコミュニケーションでき大変有意義でした。来年、京都でお会いできることを楽しみにしております。

朝日を浴びる熊本城