やや濃厚なソース

プログラミングやゲームについて。

SNSサイトのプロフィール分析2

進展がありましたのでご報告いたします。

  • 被っているプロフィールがあり、ユニークを取りました。その結果、15400プロフィールから7900プロフィールに。
    • さくら業者は、全く同じプロフィールを使いまわしたのでしょうか?
  • 単語の重要度の計算を以下のように修正
    • 長すぎるプロフィールに引きずられる感じがしたので、TFの評価を Σ_k N_k,j の平方根で割ってみました。
重要度i,j=TF x IDF
TF_i,j = N_i,j / sqrt(Σ_k N_k,j)
IDF_i = log( [総プロフィール数] / [単語T_iを含むプロフィール数] )
i: 単語番号
j: プロフィール番号
D_j: 番号jのプロフィール
T_i: 番号iの単語
N_i,j: プロフィールjに出てくる単語T_iの個数

そして、主成分分析。


第2主成分を投影した分布図。
f:id:hidetobara:20180202022238p:plain
山型ではない怪しい膨らみがあるので、高い値のプロフィールを見てみると、
f:id:hidetobara:20180202022437p:plain

プロフィール見てくれて、ありがとうございます!|【場所】に住んでいます|美味しいものが好きで、料理も好きです♪...

という、テンプレートを使いまわしたプロフィールが見えます。
数えてみると約500個見つかりました。

第3主成分を投影した分布図。
f:id:hidetobara:20180202022953p:plain
ややデコボコしている感じです。高い値のプロフィールを見てみると、
f:id:hidetobara:20180202023142p:plain
初期状態から少し付け加えただけのようなプロフィールが見えます。

第5主成分を投影した分布図。
f:id:hidetobara:20180202023306p:plain
お、また怪しい膨らみが・・・。ということで、高い値のプロフィールを見てみると、
f:id:hidetobara:20180202023400p:plain

はじめまして☆|【場所】に住む、【名前】といいます|最近は忙しくて、職場と自宅の往復だけで、...

という、別のテンプレートを使いまわしたプロフィールが見えます。別のさくら業者なのでしょうか?
数えてみると、約100個見つかりました。


ユニークで数えた場合、約7.5%のプロフィールは、少なくともテンプレートから作られたことが分かりました。
今回、ユニークにしたため、実際の割合は、もう少し上がり1割弱にはなるかと思います。


今回、前回からの結論としては、
1. テンプレートを使ってワンパターンなプロフィールを多く作ってしまうと、より低い主成分がテンプレートの特徴を表すようになってしまう
2. これらのプロフィールは、主成分分析によって次元を圧縮後、該当する主成分にて高い値をとるようになってしまう
3. このように容易に検出できてしまう
ということが分かりました。
プロフィールを作る際は気を付けないといけませんね。


次回は、
さくら業者っぽいプロフィールが分かるようになったということは、
逆に、人間っぽいプロフィールが分かる、作れるようにならないか、について試していきたく思います。