A Lightweight Vision-Language Model for Disaster Image Summarization

Keywords

セマンティック通信災害対応Vision-Language Modelエッジ推論DR-IoT画像要約

Hibiki Yoshizaki , Akira Uchiyama , Akihito Hiromori , Mineo Takai , Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerconAI 2026, pp. 1203–1208

Abstract

During disasters, response agencies must rapidly obtain accurate situational awareness. Images of on-site conditions are useful for this purpose, but their large data size makes real-time aggregation from many locations difficult when communication infrastructure is degraded. We address this challenge by combining a disaster-ready wide-area wireless system (DR-IoT) with small edge devices deployed across sites. Each device locally summarizes captured images into concise text and transmits the text as a compressed proxy, enabling objective reporting and efficient multi-site data collection under strict bandwidth limits. We develop a lightweight model that runs on small devices and generates textual summaries of disaster scenes. We evaluate our model against existing lightweight captioning baselines in terms of output quality and model size. Results show that it achieves practical latency and competitive accuracy for disaster-focused summarization, indicating its suitability for deployment on IoT devices in real disaster settings.

大規模災害の発生直後、対策本部は現場の状況を迅速かつ正確に把握する必要があります。画像や映像はそのための有力な情報源ですが、通信インフラが被災した状況ではファイルサイズが大きすぎて、多地点から準リアルタイムに集約することは困難です。既存のLPWAやDR-IoTといった災害耐性の高い無線システムは使えるものの、数十kbps程度の帯域しかなく、画像をそのまま送ることはできません。

本研究では、カメラ付きエッジ端末が各拠点で撮影した画像を端末上で簡潔なテキスト要約に変換し、テキストだけを送信することで、限られた帯域下でも客観的な状況報告を可能にする仕組みを提案します。送信後、対策本部が必要と判断した画像のみ高解像度で後追い取得するという二段構えで、災害対応時の通信資源と人的資源の配分を支援します。

コアとなるのは、小型デバイス上で動作する軽量Vision-Language Modelです。災害シーンを対象とした要約タスクに特化し、既存の軽量キャプション生成モデルと出力品質・モデルサイズ・レイテンシの観点で比較評価を行いました。実験の結果、IoTデバイス上で実用的なレイテンシを達成しつつ、災害ドメインに特化した要約において既存モデルと同等以上の精度が得られることを確認しました。

災害時LoRaネットワークのための環境認識型分散スケジューリング

Yuto Inaba, Tatsuya Amano, Akihito Hiromori, Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), SPT-IoT 2026, pp. 1366–1371

災害通信LoRa +4

物理モデル統合型深層学習による都市の土砂災害予測

Ren Ozeki, Hamada Rizk, Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), URBSENSE 2026, pp. 1094–1099

土砂災害予測物理モデル統合学習 +3

レイトレーシング駆動型ISACレーダによるパターンベース車両認識

Heetae Jin, Akira Uchiyama

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerRad 2026, pp. 328–333

ISACBeyond 5G +4

超大規模衛星群の精密編隊飛行に向けたシミュレーションフレームワーク

Tatsuya Amano, Akihito Hiromori, Hirozumi Yamaguchi, Sumio Morioka

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerVehicle , pp. 230–235

衛星編隊飛行分散シミュレーション +4

鉄道駅プラットフォームにおけるデジタルツインを用いた群衆流モデリング

Yu Yasuda, Tatsuya Amano and Hirozumi Yamaguchi

IEEE International Conference on Smart Computing (SMARTCOMP), pp. 82-89

DOI 10.1109/SMARTCOMP65954.2025.00069

デジタルツイン群衆シミュレーション +1

移動ログにおける時空間・自然言語データの効率的な機械学習消去

Haruki Yonekura, Ren Ozeki, Tatsuya Amano, Hamada Rizk, Hirozumi Yamaguchi

In Proceedings of the 33rd ACM International Conference on Advances in Geographic Information Systems (SIGSPATIAL '25). pp. 1186–1189.

DOI 10.1145/3748636.3763226

機械学習消去プライバシー +1