【トーク数から頻出ワードまで】LINEトーク分析ツールを作ってみた
LINEを使っていると、いったいこのグループのトーク数はどのくらいなんだろう?とかこの人とはどんな話をしたんだろう?と知りたくなることがありますよね?
そこで、LINEトーク分析ツールを作ってみました。
seieric/line-talk-bunseki: LINEアプリで出力したLINEのトーク履歴を分析します。 (github.com)
【トーク数から頻出ワードまで】LINEトーク分析ツールを作ってみた
今回作ったLINEトーク分析ツールでわかることは次のとおりです。
- 頻出ワードとその登場回数
- ユーザー別送信数
- 日付別送信数
- グループ通話数
- URL数
- あみだくじ数
- スタンプ数
- 写真数
- 連絡先数
- ファイル数
- 総メッセージ数
基本的には、LINEのトーク履歴ファイルに含まれるすべての情報を抽出した感じです。頻出ワードを調べるために、形態素分析エンジンMeCabと辞書として、mecab-ipadic-neologdを使いました。
LINEトーク分析ツールの使い方
使うには、ある程度(かなり)プログラミングやパソコンに精通している必要があります。それは、スマホ上では基本的に使えないコマンドラインツールだからです。
コマンドラインツールになった理由
もともとは「Webアプリとしてブラウザ上ですべて完結すれば、プライバシーの観点からもいいな。」と思っていました。Webアプリだと多くの人が使えますし。
しかし、LINEトークでは砕けた日本語が使われます。そのため、mecab-ipadic-neologdという巨大で膨大な辞書以外では正しく語句を分析することができないのです。
そして、その巨大な辞書はブラウザで読み込むことはできません。サーバー側で処理すれえばいいですが、LINEのトーク履歴を外部のサーバーに送信させるのは少し抵抗がありました。
いずれWebアプリにします
プライバシー保護の観点から、今回はコマンドラインツールにしたのですが、いずれWebアプリとしてLINEトーク分析を提供します。