画像キャプションの実際に用いられる用途に応じたキャプションの生成を目指しています.
例えば,視覚障がい者が画像内容を把握するには,できるだけ画像内容を詳細に記述したキャプションが好まれます.一方,ニュース記事中の画像に対しては,画像内容の記述よりもニュース記事の内容を盛り込んだキャプションが好まれます.このように,実社会において用いられる画像キャプションには様々な場面があり,それぞれの用途に応じて望まれる性質は異なります.それらに応じたキャプション生成を目指し,井手研究室では画像内容の説明の詳しさを自在に指定した画像キャプショニングに取り組んでいます.
そこで,単語内容のイメージしやすさを表す指標である「心像性(Imageability)」に着目し,それをキャプション文に拡張することで,意図したイメージしやすさのキャプションを生成できます.例えば,キャプショニングモデルに画像を入力し,低い値を指定した場合,簡潔なキャプションを生成し,高い値を指定した場合は画像内容を詳しく説明したキャプションを生成します.
2020年度 博士前期課程 修了
協力研究員 (広島市立大学 助教)