A Lightweight Vision-Language Model for Disaster Image Summarization
2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerconAI 2026, pp. 1203–1208
Abstract
During disasters, response agencies must rapidly obtain accurate situational awareness. Images of on-site conditions are useful for this purpose, but their large data size makes real-time aggregation from many locations difficult when communication infrastructure is degraded. We address this challenge by combining a disaster-ready wide-area wireless system (DR-IoT) with small edge devices deployed across sites. Each device locally summarizes captured images into concise text and transmits the text as a compressed proxy, enabling objective reporting and efficient multi-site data collection under strict bandwidth limits. We develop a lightweight model that runs on small devices and generates textual summaries of disaster scenes. We evaluate our model against existing lightweight captioning baselines in terms of output quality and model size. Results show that it achieves practical latency and competitive accuracy for disaster-focused summarization, indicating its suitability for deployment on IoT devices in real disaster settings.
大規模災害の発生直後、対策本部は現場の状況を迅速かつ正確に把握する必要があります。画像や映像はそのための有力な情報源ですが、通信インフラが被災した状況ではファイルサイズが大きすぎて、多地点から準リアルタイムに集約することは困難です。既存のLPWAやDR-IoTといった災害耐性の高い無線システムは使えるものの、数十kbps程度の帯域しかなく、画像をそのまま送ることはできません。
本研究では、カメラ付きエッジ端末が各拠点で撮影した画像を端末上で簡潔なテキスト要約に変換し、テキストだけを送信することで、限られた帯域下でも客観的な状況報告を可能にする仕組みを提案します。送信後、対策本部が必要と判断した画像のみ高解像度で後追い取得するという二段構えで、災害対応時の通信資源と人的資源の配分を支援します。
コアとなるのは、小型デバイス上で動作する軽量Vision-Language Modelです。災害シーンを対象とした要約タスクに特化し、既存の軽量キャプション生成モデルと出力品質・モデルサイズ・レイテンシの観点で比較評価を行いました。実験の結果、IoTデバイス上で実用的なレイテンシを達成しつつ、災害ドメインに特化した要約において既存モデルと同等以上の精度が得られることを確認しました。