2023年2月15日に「MoT TechTalk #16 MoT TechTalk 5万台のドラレコを活用!大規模データ収集・機械学習基盤の全容」(connpass)を開催しました。
本記事では当日の内容を簡単に紹介します。
当日のスライド
MoT TechTalkとは?
MoT TechTalkは、Mobility Technologiesのエンジニアたちが、タクシーアプリ『GO』をはじめとしたサービスやプロダクトを開発する中で得た技術的ナレッジを共有するイベントです。
Mobility Technologiesでは、タクシーアプリ『GO』や次世代AIドラレコサービス『DRIVE CHART』などを中心に、移動に関するサービスを展開しています。さらに、これらのサービスから得られたデータを活用し、新しいサービスを生み出すための取り組みも積極的に行っています。
今回が16回目となるMoT TechTalkでは、その取り組みの1つである「道路情報の自動差分抽出プロジェクト」で得た知見を共有しました。サービス運用中にバックグラウンドで効率的にデータを収集する際の工夫や直面した問題と解決策、そして収集した大量のデータを処理する機械学習推論の分散実行の仕組みについて紹介しました。
こちらのツイートのスレッドで当日の様子や雰囲気を感じていただけると思います。
MoT TechTalk #16「5万台のドラレコを活用!大規模データ収集・機械学習基盤の全容」
— GO Inc. dev | タクシーアプリ『GO』 (@goinc_techtalk) February 15, 2023
はじまります!
ライブ配信:https://t.co/j7Y0A4YCnB
イベントのページ:https://t.co/da7Kt1apQN#mot_tech_talk
登壇者紹介
今回はこちらのメンバーが登壇しました。
- データエンジニア:松浦 慎平
- データエンジニア:鳩 英嗣
- データエンジニア:高山 将太
- 広報:高堂 和芽(@sandgirl_14)
ドラレコデータから道路情報の差分を見つけるシステムの仕組みと特徴
ここでは「道路情報の差分抽出プロジェクト」の概要と、システムの構成と特徴について紹介しました。
「道路情報の差分抽出プロジェクト」は、コンピュータビジョン技術を用いてドラレコの画像から検出した物体と地図を比較して、変化している箇所を抽出することで、地図更新の低コスト化と高鮮度化を実現しようという取り組みです。
重要となる技術として、以下の3つを取り上げ紹介しました。詳しくは文末のアーカイブ動画をご覧ください!
- マップマッチングで車両位置を推定
マップマッチングと呼ばれる技術を用いて、GPSなどのデータをから車両が走行した道路を推定
- 機械学習とCV技術で道路情報を検出
機械学習を用いて標識や信号機などの道路情報を検出し、SLAMや三角測量によって検出した道路情報の緯度経度を推定
- 地理空間情報技術を用いた差分抽出
差分抽出で必要な地理空間的な処理にPostGISやBigQueryを活用し、デバッグ時の可視化にはQGISを使用
本プロジェクトのシステムは、ドラレコからセンサーデータを収集し、走行した道路を推定した上で必要な情報を取得するデータ収集パートと、道路情報の位置座標を推定した上で地図と比較して差分を計算する処理パートに分かれています。
これらはAWS上でAWS LambdaやAWS Batchなどを組み合わせて作られたパイプライン上で動作しています。このシステムの4つの特徴についても紹介しました。
契約車両5万台超のドラレコデータを収集する現実解
ここではデータ収集パートについて、車両位置データの収集と動画データの収集、それぞれでの工夫を紹介しました。
ドラレコのデータはモバイル回線を通じてアップロードされる仕組みのため、回線負荷や通信料金の面で全ての動画データを取得するのは困難です。また、デバイスの保存容量に限りがあり古いデータから消えていくため、欲しいデータはロストする前に取得しなければなりません。
こうした制約がある中で、地図更新に必要な必要最低限の動画を効率的に収集する仕組みや、実際にデータ収集する中で発生した予期せぬ通信負荷とその解決策について事例を紹介しました。
AWS Batchを用いた画像処理の分散実行
ここでは処理パートのうち、ドラレコの映像から道路上の物体を検出し、検出した物体の位置座標を推定するまでの処理について紹介しました。
現在1か月で収集されるドラレコの映像は1200時間と大量であり、今後データ量はさらに増えるため処理の分散実行が必須です。そこでAWS Batchを採用し、一連の処理を分散実行しています。
AWS Batchを用いてどのように分散実行基盤を構築しているのか、また、処理の実行環境のビルド時間削減やインスタンスコストの削減など、システムを構築する際に行った3つの工夫についても紹介しました。
- 処理ごとに適したインスタンスタイプの選択
- Dockerイメージのビルド効率化
- 物体検出の処理性能の改善
アーカイブ動画
今回非常に多くの質問や感想をいただきました。ありがとうございました。アーカイブ動画の中では以下の質問にもお答えしていますのでぜひ視聴いただければと思います。
- PostGISを使う際、処理を軽くするために工夫していることはある?
- 自動差分抽出はどれくらいの精度が出る?
- 動画の解像度やフレームレートどれくらい?
- 雨天とか悪天候時には何か特別なことをしてる?
- ドラレコの設置はどうしてる?位置、角度とかで物体検出の精度に影響しそう
- 物体検出のアノテーションはどうやってる?
開催履歴・開催予定
MoT Online Tech Talk は不定期開催しています。過去の開催レポートは こちら にもありますので、ぜひご覧ください!
MoTの最新技術情報は公式Twitterアカウント @goinc_techtalk で随時発信していきますので、ぜひフォローして続報をお待ちください!