0

にぽ

2018-06-14

マルチモーダル絵文字予測🤔🤔🤔

[紹介論文] Barbieri, F., Ballesteros, M., Ronzano, F., & Saggion, H. (2018). Multimodal Emoji Prediction. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 679–686.

[論文URL] http://dx.doi.org/10.18653/v1/N18-2107

CNN FastText ResNet マルチモーダル画像処理知能情報学絵文字自然言語処理計算言語学

View数：3,260

Like+4

お気に入り

この記事の見出し

1 概要
2 背景
3 結果と考察
4 ライセンス等

概要

画像とテキストから絵文字を1つ予測する。

データセット：Instagram（高頻度20絵文字のうち1つだけを使っているテキストのみ；299,809件）。

入力：画像はResNet，テキストはFastTextによって表現を獲得し，つなぎ合わせたもの（concatenate）。

分類器：ロジスティック回帰（L2正則化）

出力：絵文字

背景

筆者はTwitterのテキストから絵文字を予測している（Barbieri, et al., 2017 @ EACL）。画像も追加したら精度が上がるかもしれない。TwitterではできないのでInstagramを使おう。

結果と考察

Table 3 in the paper.

Texはテキストのみ，Visは画像のみ，NMは提案手法である。高頻度絵文字20種を対象としているが，これをtop-5, top-10のみで行った場合も示している。

テキストのみで予測しやすい絵文字は❤と🇺🇸である。後者はテキスト中にUSAなどと書かれているからであろう。
テキストのみで予測しにくい絵文字は👌と🙌である。
画像のみで予測しやすい絵文字は🐶☀💪である。犬の写真，明るい写真，ジムの写真などが該当する。
マルチモーダルによる予測では，全ての絵文字についてテキストのみ・画像のみより精度が向上している。それぞれが相補的に働いていると思われる。
5種類よりも10種類，10種類よりも20種類の分類の方が提案手法による改善の度合いが大きい。

ライセンス等

本論文はCC-BY 4.0にてライセンスされている。本文中の画像（表）は論文より転載（©2018 Association for Computational Linguistics.）。

分野/キーワード: CNN FastText ResNet マルチモーダル画像処理知能情報学絵文字自然言語処理計算言語学

論文ナビに登録すると・・・

①最新情報をメールでお届け！

話題のニュース一覧
注目のプレスリリース
論文解説・最近のイベント

②論文解説記事の投稿

ご自身の論文の解説
読んだ論文のメモ
研究に関する情報のシェア

③セミナー情報の宣伝

ご自身が主催するイベント情報を投稿してシェア
ユーザーで作るセミナー日程まとめに参加

論文ナビに登録

【併せて読みたい関連記事】

【論文ナビの週間人気投稿記事】

論文ナビでは、どなたでも読んだ論文・発表した論文の解説記事を投稿することができます。登録はこちら

X

お気に入り

Total (0)

0