30歳未満 30歳以上 政党 年齢 あらかじめ与えるクラスラベル 学習 テスト データ 予測 機械学習 モデル 学習 データ SNSユーザ 予測結果 ⺠主党 30歳未満 ユーザにクラスラベルを付与 • ユーザに対するタグ付け ‒ クラスが明⽰的に決められて いないような問題設定[3,4,5] 「Go⾔語の初⼼者」 Go⾔語 初⼼者 作成 SNSユーザ 共通点を持つ ユーザ集合 リスト※1 タグ付け システム リスト名 タグ付け ※1:リストとはTwitterの機能.ユーザをまとめることで情報 を閲覧しやすくする機能.Facebookであればグループ. [3] Sharma et al., Inferring who-is-who in the Twitter social network. SIGCOMM 2012. [4] Yamaguchi et al., Tag-based User Topic Discovery Using Twitter Lists. ASONAM 2011. [5] Kim et al., Analysis of Twitter Lists as a Potential Source for Discovering Latent Characteristics of Users. CHI 2010. [1] Rao et al., Classifying Latent User Attributes in Twitter. CIKM 2010. [2] Marco et al., A Machine Learning Approach to Twitter User Classification. ICWSM 2011. ユーザの特徴として ツイートなどを利⽤
ツイート ⽂埋め込み BERT 単語埋め込み fastText 特徴表現 Binary cross entropy loss Margin ranking loss 損失関数 • タグとユーザツイートの特徴表現ベクトルを作成, ベクトルを全結合層に⼊⼒して対応関係を学習 ‒ 特徴表現: 単語埋め込み(fastText[7,8]), ⽂埋め込み(BERT[9]) ‒ 損失関数: Binary cross entropy loss, Margin ranking loss [7] Bojanowski et al., Enriching word vectors with subword information. TACL 2017. [8] Joulin et al., Bag of tricks for efficient text classification. EACL 2017. [9] Devlin et al., BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL 2019. 全結合層