データから実際に抽出される情報と,人間によるその解釈との間に存在する差異は,セマンティックギャップと呼ばれます.機械にとって,人間の期待に沿った単語を適切に選択することは,しばしば困難なことです.例えば,車の画像に対して,「乗り物」という説明文を付けるのは抽象的過ぎ,一方で車の車名などを説明文とするのは具体的過ぎます.単語の視覚的な包含関係を理解することができれば,単語の抽象度を決定することができます.
本研究では,様々な単語に対して人間が受け取る印象の違いを定量化します.抽象的な単語は多様な概念を包含しているためイメージしにくく,一方で具体的な単語はより狭義的な概念を指すことが多いためイメージしやくすなると考えられます.このアイデアを利用して,様々な単語に対する特徴の多様性を計算し,単語の抽象度を推定します.
また,視覚的な特徴だけでなく,発音などの言語的な特徴も考慮し,単語に対するそれぞれの特徴と人間の知覚との関係性も分析しています.
[ソース] https://github.com/mkasu/imageabilityestimation
[データセット] https://github.com/mkasu/imageabilitycorpus
D3
協力研究員 (広島市立大学 助教)