コンテンツ科学研究室・駒水孝裕

駒水孝裕

准教授（数理・データ科学・人工知能教育研究センター）

メール: taka-coma ( a t ) acm.org

最新の研究成果

View-aware Cross-modal Distillation for Multi-view Action Recognition

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
IEEE/CVF Winter Conference on Applications of Computer Vision, pp.1-10, March 2026.

Hierarchical Global-Local Fusion for One-stage Open-vocabulary Temporal Action Detection

Trung Thanh Nguyen, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
ACM Transactions on Multimedia Computing, Communications, and Applications, January 2026.

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
ACM International Conference on Multimedia in Asia, pp.1-10, December 2025.

Origami Crease Recognition for Automatic Folding Diagrams Generation

Hitomi Kato, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Pattern Recognition and Computer Vision, 16175(2), pp.16-31, December 2025.

Semantic Alignment on Action for Image Captioning

Da Huo, Marc A Kastner, Takatsugu Hirayama, Takahiro Komamizu, Yasutomo Kawanishi, Ichiro Ide
IEEE Access, 13(2025), November 2025.

Semantic Alignment on Action for Image Captioning

Da Huo, Marc A Kastner, Takatsugu Hirayama, Takahiro Komamizu, Yasutomo Kawanishi, Ichiro Ide
IEEE Access, 13(2025), November 2025.

Lip Shape-Aware Word Selection for Lyric Translation

Kotaro Ikeda, Chihaya Matsuhira, Hirotaka Kato, Marc A. Kastner, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Pattern Recognition and Computer Vision, Vol.16175, p.48–62, November 2025.

IntentVC 2025: The ACM Multimedia Grand Challenge on Intention-Oriented Controllable Video Captioning

Takahiro Komamizu, Marc A. Kastner, Yasutomo Kawanishi, Trung Thanh Nguyen, Junan Chen
ACM International Conference on Multimedia, pp.1-2, October 2025.

Analyzing the Visual Variety of Adjectives based on Clustering of Visual Features

Yui Tanaka, Marc A. Kastner, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
MUWS ‘25: Proceedings of the 4th International Workshop on Multimodal Human Understanding for the Web and Social Media, October 2025.

Prospective Analysis of Semantic Image Retrieval: Comparing Scene Graph, Visual Features, and Captions

Takahiro Komamizu
MMGR ‘25: Proceedings of the 3rd International Workshop on Deep Multimodal Generation and Retrieval, October 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Lei Xiang, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-079, August 2025.

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

松平茅隼, カストナーマークアウレル, Takahiro Komamizu, 平山高嗣, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025), IT3-06, August 2025.

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

松平茅隼, カストナーマークアウレル, Takahiro Komamizu, 平山高嗣, 井手一郎
第28回画像の認識・理解シンポジウム(MIRU2025) 論文集, IT3-06, August 2025.

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro Ide
International Journal of Machine Learning and Cybernetics, Vol.16, 7-8, pp.4509-4524, August 2025.

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro Ide
International Journal of Machine Learning and Cybernetics, Vol.16, 7-8, pp.4509-4524, August 2025.

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-038, August 2025.

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-038, August 2025.

Visual Adapter for Extracting Textually-related Features for Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-148, August 2025.

Visual Adapter for Extracting Textually-related Features for Video Captioning

Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS3-148, August 2025.

Image Retrieval based on Editable Scene Graph with Contrastive Representation Learning

PHAM Dinh Duy, Itthisak PHUEAKSRI, Marc A. Kastner, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide
Unknown Journal, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Peiyuan ZHU, Marc A. Kastner, Hirotaka Kato, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide
Unknown Journal, IS2-140, July 2025.

Analysis and prediction of attractive fonts on title-overlaid food images

Nanami Takagi, Haruya Kyutoku, Keisuke Doman, Takahiro Komamizu, Ichiro Ide
Proceedings of the 19th Int. Conf. on Machine Vision Applications (MVA2025), July 2025.

Analysis and prediction of attractive fonts on title-overlaid food images

Nanami Takagi, Haruya Kyutoku, Keisuke Doman, Takahiro Komamizu, Ichiro Ide
Proceedings of the 19th Int. Conf. on Machine Vision Applications (MVA2025), July 2025.

Front matter

Takahiro Komamizu, Marc A. Kastner, Minh-Son Dao
ICDAR ‘25: Proceedings of the 6th Workshop on Intelligent Cross-Data Analysis and Retrieval, June 2025.

ICDAR 25: Intelligent Cross-Data Analysis and Retrieval

Takahiro Komamizu, Marc A. Kastner, Minh-Son Dao, Michael Alexander Riegler, Duc-Tien Dang-Nguyen, Son Tran
ICMR ‘25: Proceedings of the 2025 International Conference on Multimedia Retrieval, June 2025.

ICDAR'25 -Proceedings of the 6th Workshop on Intelligent Cross-Data Analysis and Retrieval-

Takahiro Komamizu, Marc A. Kastner, Minh-Son Dao
ACM Proceedings, June 2025.

コンテンツ科学研究室

駒水 孝裕

最新の研究成果

View-aware Cross-modal Distillation for Multi-view Action Recognition

Hierarchical Global-Local Fusion for One-stage Open-vocabulary Temporal Action Detection

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

Origami Crease Recognition for Automatic Folding Diagrams Generation

Semantic Alignment on Action for Image Captioning

Semantic Alignment on Action for Image Captioning

Lip Shape-Aware Word Selection for Lyric Translation

IntentVC 2025: The ACM Multimedia Grand Challenge on Intention-Oriented Controllable Video Captioning

Analyzing the Visual Variety of Adjectives based on Clustering of Visual Features

Prospective Analysis of Semantic Image Retrieval: Comparing Scene Graph, Visual Features, and Captions

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Exploring Unknown Image Generation for Zero Shot Learning via Diffusion Models

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

Investigating conceptual blending of a diffusion model for improving nonword-to-image generation (ACMMM2024)

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

Multi-proposal collaboration and multi-task training for weakly-supervised video moment retrieval

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

MultiSensor-Home: Benchmark for Multi-modal Multi-view Action Recognition in Home Environments

Visual Adapter for Extracting Textually-related Features for Video Captioning

Visual Adapter for Extracting Textually-related Features for Video Captioning

Image Retrieval based on Editable Scene Graph with Contrastive Representation Learning

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired

Analysis and prediction of attractive fonts on title-overlaid food images

Analysis and prediction of attractive fonts on title-overlaid food images

Front matter

ICDAR 25: Intelligent Cross-Data Analysis and Retrieval

ICDAR'25 -Proceedings of the 6th Workshop on Intelligent Cross-Data Analysis and Retrieval-

駒水孝裕