Translating Vision into Words: Advancing Object Recognition with Visual-Language Models

Translating Vision into Words: Advancing Object Recognition with Visual-Language Models

Keywords

点群Visual Language ModelAIoTCLIPWiFiSmart Environments

Haruki YONEKURA , Hamada Rizk , Hirozumi Yamaguchi

The 22nd ACM International Conference on Mobile Systems, Applications, and Services (MobiSys'24 Posters)

本研究は、視覚言語モデル(Visual-Language Model, VLM) を活用し、屋内環境における物体の自動識別および分類を行う新しい手法を提案する。従来の手法では、各物体を手動でラベリングするコストの高さや、記述の曖昧さが課題となっていた。本システムでは、詳細な点群データ(3D表現)とRGB画像 を組み合わせた大規模データセットを学習し、事前定義されたラベルを必要とせずに自然言語による物体検索 を可能にする。
本手法では、CLIP(Contrastive Language-Image Pretraining) を活用し、テキストと画像の統合学習を行うことで、カテゴリに依存しない柔軟な物体認識を実現する。加えて、スマートフォン搭載のLiDARセンサー により取得された環境データを活用し、WiFiの受信信号強度(RSSI) と統合することで、無線環境情報を利用した物体識別の精度向上を図る。RSSIデータを3D点群データに組み込み、無線信号の空間的分布を考慮することで、視認できないオブジェクトの識別能力を強化する。




発表論文

  • 米倉 晴紀, Hamada Rizk, 山口 弘純, "Mobile Sensor-Based Indoor Object Searching with Visual-Language Model," 研究報告モバイルコンピューティングと新社会システム(MBL),2024-MBL-111,1-5 (2024-05-08), 2188-8817, https://ipsj.ixsq.nii.ac.jp/records/233963
  • Yonekura, H., Rizk, H., & Yamaguchi, H. (2024, June). Poster: Translating Vision into Words: Advancing Object Recognition with Visual-Language Models. In Proceedings of the 22nd Annual International Conference on Mobile Systems, Applications and Services (pp. 740-741). https://dl.acm.org/doi/10.1145/3643832.3661407

災害時LoRaネットワークのための環境認識型分散スケジューリング

Yuto Inaba, Tatsuya Amano, Akihito Hiromori, Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), SPT-IoT 2026, pp. 1366–1371

災害通信LoRa +4

災害現場画像要約のための軽量Vision-Language Model

Hibiki Yoshizaki, Akira Uchiyama, Akihito Hiromori, Mineo Takai, Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerconAI 2026, pp. 1203–1208

セマンティック通信災害対応 +4

物理モデル統合型深層学習による都市の土砂災害予測

Ren Ozeki, Hamada Rizk, Hirozumi Yamaguchi

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), URBSENSE 2026, pp. 1094–1099

土砂災害予測物理モデル統合学習 +3

レイトレーシング駆動型ISACレーダによるパターンベース車両認識

Heetae Jin, Akira Uchiyama

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerRad 2026, pp. 328–333

ISACBeyond 5G +4

超大規模衛星群の精密編隊飛行に向けたシミュレーションフレームワーク

Tatsuya Amano, Akihito Hiromori, Hirozumi Yamaguchi, Sumio Morioka

2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), PerVehicle , pp. 230–235

衛星編隊飛行分散シミュレーション +4

鉄道駅プラットフォームにおけるデジタルツインを用いた群衆流モデリング

Yu Yasuda, Tatsuya Amano and Hirozumi Yamaguchi

IEEE International Conference on Smart Computing (SMARTCOMP), pp. 82-89

DOI 10.1109/SMARTCOMP65954.2025.00069

デジタルツイン群衆シミュレーション +1