やや濃厚なソース

プログラミングやゲームについて。

SNSサイトのプロフィール分析3

前回までで使用した方法が、別のSNSでも使用できるのかを試し、
結果が出たのでご報告いたします。

今回使用したデータは以下の通りです。

  • 前回まで使用したサイトとは別のSNSからクローリング
  • ログイン時間順で、日本主要都道府県のユーザを取得
  • 約5900プロフィール

同様に、形態素解析、ベクトル化、主成分分析を行いました。
以下のグラフは、とある主成分に投影したものです。
人為的な文言を含ませない限りは、このように山型、正規分布に近くなります。
f:id:hidetobara:20180411234559p:plain
驚いたことに、
前サイトとは違って、偏った分布は見あたりませんでした。
サクラ業者を入れていないのか、あるいはそのような業者を排除する仕組みがあるのでしょうか?
その点についはより詳しく調べてみないことには分かりません。


ここは順当にどのような単語で分類されるのかを見ていきたく思います。
第一主成分。
f:id:hidetobara:20180411235735p:plain
以下のような単語が含まれると、分布の右に行きやすくなります。
とても、一般的な自己紹介を分類する単語だな、と感じました。

ロング,優しい,料理,たばこ,買い物,明るい,結婚,セミ,鑑賞,吸う,ロング,のんびり,おっとり,独身,映画,セミロング,作り,音楽,カラオケ,読書,ショッピング,お菓子,よろしく,旅行,ショッピング,遊ぶ,マイペース


第二主成分。
f:id:hidetobara:20180412000737p:plain
以下のような単語が含まれると、分布の右に行きやすくなります。
この分類はイマイチ分かりませんでした。
結婚、既婚、子供の単語が表れており、家族構成で分類する単語なのでしょうか。

結婚,たばこ,吸う,料理,独身,優しい,明るい,既婚,系,寂しい,作り,ロング,自分,買い物,方,会う,屋,居る,セミロング,見る,カラオケ,お菓子,ショッピング,子供,苦手,鑑賞,思う,遊ぶ,欲しい,ロング,幸せ,映画,免許,持つ,のんびり,甘えん坊,ちゃう,少し,甘える,家,音楽,タイプ,似る,出来る,男性,読書,マイペース,時間,旅行,寝る,旦那,おっとり,可愛い


第三主成分。
f:id:hidetobara:20180412001932p:plain
以下のような単語が含まれると、分布の右に行きやすくなります。
第一、第二とは明らかに違い、これがパパ活を分類する単語と分かりました。
単語「パパ」だけでなく、前の主成分には表れない「余裕」「食事」「大人」「関係」「紳士」「経済」「定期」などの単語もパパ活に結び付く強い単語になっているのが分かりました。

余裕,ロング,食事,パパ,大人,男性,関係,よろしく,探す,お願い,旅行,食べる,買い物,紳士,セミ,経済,美味しい,ショッピング,一緒,定期,映画,時間,楽しい,料理,優しい,明るい,鑑賞,嬉しい,希望,お話,思う,メッセージ,付き合い,カフェ,会える,おっとり,平日,ご飯,いただける,お互い,過ごせる,たばこ,デート,勉強,素敵,過ごす,できる,都内,歩く,仕事


第四主成分。
f:id:hidetobara:20180412004823p:plain
より、進んだパパ活のグループといった感じです。そのためか、分布も山形の右側が窄んだ感じになっています。

たばこ,結婚,吸う,独身,会える,セミロング,ロング,私,希望,メール,会う,よろしく,関係,既婚,お願い,エッチ,定期,エッチ,ショッピング,旦那,出会い,付き合い,探す

と、このように、
このようなSNSが出会いの場だけでなく、パパ活の場としてもあることが、分析上からも分かりました。
後、もう一つくらいのサイトも比較できればなあ、と思っています!