MoT TechTalk 5万台のドラレコを活用!大規模データ収集・機械学習基盤の全容 #mot_tech_talk

2023年2月15日に「MoT TechTalk #16 MoT TechTalk 5万台のドラレコを活用!大規模データ収集・機械学習基盤の全容」(connpass)を開催しました。

本記事では当日の内容を簡単に紹介します。

当日のスライド

MoT TechTalkとは?

MoT TechTalkは、Mobility Technologiesのエンジニアたちが、タクシーアプリ『GO』をはじめとしたサービスやプロダクトを開発する中で得た技術的ナレッジを共有するイベントです。

Mobility Technologiesでは、タクシーアプリ『GO』や次世代AIドラレコサービス『DRIVE CHART』などを中心に、移動に関するサービスを展開しています。さらに、これらのサービスから得られたデータを活用し、新しいサービスを生み出すための取り組みも積極的に行っています。

今回が16回目となるMoT TechTalkでは、その取り組みの1つである「道路情報の自動差分抽出プロジェクト」で得た知見を共有しました。サービス運用中にバックグラウンドで効率的にデータを収集する際の工夫や直面した問題と解決策、そして収集した大量のデータを処理する機械学習推論の分散実行の仕組みについて紹介しました。

こちらのツイートのスレッドで当日の様子や雰囲気を感じていただけると思います。

登壇者紹介

今回はこちらのメンバーが登壇しました。

  • データエンジニア:松浦 慎平
  • データエンジニア:鳩 英嗣
  • データエンジニア:高山 将太
  • 広報:高堂 和芽(@sandgirl_14

ドラレコデータから道路情報の差分を見つけるシステムの仕組みと特徴

ここでは「道路情報の差分抽出プロジェクト」の概要と、システムの構成と特徴について紹介しました。

「道路情報の差分抽出プロジェクト」は、コンピュータビジョン技術を用いてドラレコの画像から検出した物体と地図を比較して、変化している箇所を抽出することで、地図更新の低コスト化と高鮮度化を実現しようという取り組みです。

重要となる技術として、以下の3つを取り上げ紹介しました。詳しくは文末のアーカイブ動画をご覧ください!

  • マップマッチングで車両位置を推定

マップマッチングと呼ばれる技術を用いて、GPSなどのデータをから車両が走行した道路を推定

機械学習を用いて標識や信号機などの道路情報を検出し、SLAMや三角測量によって検出した道路情報の緯度経度を推定

差分抽出で必要な地理空間的な処理にPostGISやBigQueryを活用し、デバッグ時の可視化にはQGISを使用

1.jpg

本プロジェクトのシステムは、ドラレコからセンサーデータを収集し、走行した道路を推定した上で必要な情報を取得するデータ収集パートと、道路情報の位置座標を推定した上で地図と比較して差分を計算する処理パートに分かれています

これらはAWS上でAWS LambdaやAWS Batchなどを組み合わせて作られたパイプライン上で動作しています。このシステムの4つの特徴についても紹介しました。

  • バッチ処理を採用
  • ワークフロー管理
  • AWSのサービス選定
  • AWS CDKによるInfrastructure as Code

2.jpg

契約車両5万台超のドラレコデータを収集する現実解

ここではデータ収集パートについて、車両位置データの収集と動画データの収集、それぞれでの工夫を紹介しました。

ドラレコのデータはモバイル回線を通じてアップロードされる仕組みのため、回線負荷や通信料金の面で全ての動画データを取得するのは困難です。また、デバイスの保存容量に限りがあり古いデータから消えていくため、欲しいデータはロストする前に取得しなければなりません。

こうした制約がある中で、地図更新に必要な必要最低限の動画を効率的に収集する仕組みや、実際にデータ収集する中で発生した予期せぬ通信負荷とその解決策について事例を紹介しました。

3.jpg

AWS Batchを用いた画像処理の分散実行

ここでは処理パートのうち、ドラレコの映像から道路上の物体を検出し、検出した物体の位置座標を推定するまでの処理について紹介しました。

現在1か月で収集されるドラレコの映像は1200時間と大量であり、今後データ量はさらに増えるため処理の分散実行が必須です。そこでAWS Batchを採用し、一連の処理を分散実行しています。

AWS Batchを用いてどのように分散実行基盤を構築しているのか、また、処理の実行環境のビルド時間削減やインスタンスコストの削減など、システムを構築する際に行った3つの工夫についても紹介しました。

  • 処理ごとに適したインスタンスタイプの選択
  • Dockerイメージのビルド効率化
  • 物体検出の処理性能の改善

4.jpg

アーカイブ動画

今回非常に多くの質問や感想をいただきました。ありがとうございました。アーカイブ動画の中では以下の質問にもお答えしていますのでぜひ視聴いただければと思います。

  • PostGISを使う際、処理を軽くするために工夫していることはある?
  • 自動差分抽出はどれくらいの精度が出る?
  • 動画の解像度やフレームレートどれくらい?
  • 雨天とか悪天候時には何か特別なことをしてる?
  • ドラレコの設置はどうしてる?位置、角度とかで物体検出の精度に影響しそう
  • 物体検出のアノテーションはどうやってる?

開催履歴・開催予定

MoT Online Tech Talk不定期開催しています。過去の開催レポートは こちら にもありますので、ぜひご覧ください!

MoTの最新技術情報は公式Twitterアカウント @goinc_techtalk で随時発信していきますので、ぜひフォローして続報をお待ちください!