SNSサイトのプロフィール分析2
進展がありましたのでご報告いたします。
- 被っているプロフィールがあり、ユニークを取りました。その結果、15400プロフィールから7900プロフィールに。
- さくら業者は、全く同じプロフィールを使いまわしたのでしょうか?
- 単語の重要度の計算を以下のように修正
- 長すぎるプロフィールに引きずられる感じがしたので、TFの評価を Σ_k N_k,j の平方根で割ってみました。
重要度i,j=TF x IDF TF_i,j = N_i,j / sqrt(Σ_k N_k,j) IDF_i = log( [総プロフィール数] / [単語T_iを含むプロフィール数] ) i: 単語番号 j: プロフィール番号 D_j: 番号jのプロフィール T_i: 番号iの単語 N_i,j: プロフィールjに出てくる単語T_iの個数
そして、主成分分析。
第2主成分を投影した分布図。
山型ではない怪しい膨らみがあるので、高い値のプロフィールを見てみると、
プロフィール見てくれて、ありがとうございます!|【場所】に住んでいます|美味しいものが好きで、料理も好きです♪...
という、テンプレートを使いまわしたプロフィールが見えます。
数えてみると約500個見つかりました。
第3主成分を投影した分布図。
ややデコボコしている感じです。高い値のプロフィールを見てみると、
初期状態から少し付け加えただけのようなプロフィールが見えます。
第5主成分を投影した分布図。
お、また怪しい膨らみが・・・。ということで、高い値のプロフィールを見てみると、
はじめまして☆|【場所】に住む、【名前】といいます|最近は忙しくて、職場と自宅の往復だけで、...
という、別のテンプレートを使いまわしたプロフィールが見えます。別のさくら業者なのでしょうか?
数えてみると、約100個見つかりました。
ユニークで数えた場合、約7.5%のプロフィールは、少なくともテンプレートから作られたことが分かりました。
今回、ユニークにしたため、実際の割合は、もう少し上がり1割弱にはなるかと思います。
今回、前回からの結論としては、
1. テンプレートを使ってワンパターンなプロフィールを多く作ってしまうと、より低い主成分がテンプレートの特徴を表すようになってしまう
2. これらのプロフィールは、主成分分析によって次元を圧縮後、該当する主成分にて高い値をとるようになってしまう
3. このように容易に検出できてしまう
ということが分かりました。
プロフィールを作る際は気を付けないといけませんね。
次回は、
さくら業者っぽいプロフィールが分かるようになったということは、
逆に、人間っぽいプロフィールが分かる、作れるようにならないか、について試していきたく思います。