Dr. Takahiro Komamizu

Associate Professor （Center for Artificial Intelligence, Mathematical and Data Science）

E-Mail: taka-coma ( a t ) acm.org

Recent publications

View-aware Cross-modal Distillation for Multi-view Action Recognition

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
IEEE/CVF Winter Conference on Applications of Computer Vision, pp.1-10, To be published in March 2026.

Hierarchical Global-Local Fusion for One-stage Open-vocabulary Temporal Action Detection

Trung Thanh Nguyen, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
ACM Transactions on Multimedia Computing, Communications, and Applications, January 2026.

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
ACM International Conference on Multimedia in Asia, pp.1-10, December 2025.

Origami Crease Recognition for Automatic Folding Diagrams Generation

Hitomi Kato, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Pattern Recognition and Computer Vision, 16175(2), pp.16-31, December 2025.

Semantic Alignment on Action for Image Captioning

Da Huo, Marc A Kastner, Takatsugu Hirayama, Takahiro Komamizu, Yasutomo Kawanishi, Ichiro Ide
IEEE Access, 13(2025), November 2025.

Semantic Alignment on Action for Image Captioning

Da Huo, Marc A Kastner, Takatsugu Hirayama, Takahiro Komamizu, Yasutomo Kawanishi, Ichiro Ide
IEEE Access, 13(2025), November 2025.

Lip Shape-Aware Word Selection for Lyric Translation

Kotaro Ikeda, Chihaya Matsuhira, Hirotaka Kato, Marc A. Kastner, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Pattern Recognition and Computer Vision, Vol.16175, p.48–62, November 2025.

IntentVC 2025: The ACM Multimedia Grand Challenge on Intention-Oriented Controllable Video Captioning

Takahiro Komamizu, Marc A. Kastner, Yasutomo Kawanishi, Trung Thanh Nguyen, Junan Chen
ACM International Conference on Multimedia, pp.1-2, October 2025.

Analyzing the Visual Variety of Adjectives based on Clustering of Visual Features

Yui Tanaka, Marc A. Kastner, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
MUWS ‘25: Proceedings of the 4th International Workshop on Multimodal Human Understanding for the Web and Social Media, October 2025.

Prospective Analysis of Semantic Image Retrieval: Comparing Scene Graph, Visual Features, and Captions

Takahiro Komamizu
MMGR ‘25: Proceedings of the 3rd International Workshop on Deep Multimodal Generation and Retrieval, October 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

松平茅隼, カストナーマークアウレル, Takahiro Komamizu, 平山高嗣, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025), IT3-06, August 2025.

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

松平茅隼, カストナーマークアウレル, Takahiro Komamizu, 平山高嗣, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, IT3-06, August 2025.

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro Ide
International Journal of Machine Learning and Cybernetics, Vol.16, 7-8, pp.4509-4524, August 2025.

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro Ide
International Journal of Machine Learning and Cybernetics, Vol.16, 7-8, pp.4509-4524, August 2025.

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-038, August 2025.

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-038, August 2025.

Visual Adapter for Extracting Textually-related Features for Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-148, August 2025.

Visual Adapter for Extracting Textually-related Features for Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-148, August 2025.

Image Retrieval based on Editable Scene Graph with Contrastive Representation Learning

PHAM Dinh Duy, Itthisak PHUEAKSRI, Marc A. Kastner, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

田中優衣, カストナーマークアウレル, 川西康友, 駒水孝裕, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, IS1-145, July 2025.

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

田中優衣, カストナーマークアウレル, 川西康友, 駒水孝裕, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, IS1-145, July 2025.

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

田中優衣, カストナーマークアウレル, 川西康友, 駒水孝裕, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, IS1-145, July 2025.

折り図の自動生成のための折り線推定とその評価

加藤眸, 加藤大貴, 平山高嗣, 駒水孝裕, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, July 2025.

折り図の自動生成のための折り線推定とその評価

加藤眸, 加藤大貴, 平山高嗣, 駒水孝裕, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, July 2025.

Contents Science Lab

Dr. Takahiro Komamizu

Recent publications

View-aware Cross-modal Distillation for Multi-view Action Recognition

Hierarchical Global-Local Fusion for One-stage Open-vocabulary Temporal Action Detection

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

Origami Crease Recognition for Automatic Folding Diagrams Generation

Semantic Alignment on Action for Image Captioning

Semantic Alignment on Action for Image Captioning

Lip Shape-Aware Word Selection for Lyric Translation

IntentVC 2025: The ACM Multimedia Grand Challenge on Intention-Oriented Controllable Video Captioning

Analyzing the Visual Variety of Adjectives based on Clustering of Visual Features

Prospective Analysis of Semantic Image Retrieval: Comparing Scene Graph, Visual Features, and Captions

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Visual Adapter for Extracting Textually-related Features for Video Captioning

Visual Adapter for Extracting Textually-related Features for Video Captioning

Image Retrieval based on Editable Scene Graph with Contrastive Representation Learning

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

画像特徴のクラスタリングによる形容詞の視覚的な多様性の分析

折り図の自動生成のための折り線推定とその評価

折り図の自動生成のための折り線推定とその評価