デジタル・デザイン・ラボラトリーな日々

アラフィフプログラマーが数学と物理を基礎からやり直す。https://qiita.com/yaju

「サザエさんのじゃんけん データ分析」の資料公開

昨年12月7日に静岡Developers勉強会「入門機械学習」の読書会があり、その際には時間が余ってしまうということで、今まで習ったことのプレゼンしたらどうかの提案がありました。それで何かネタが無いかと思ってネットで調べたところで、サザエさんのじゃんけんの過去データ一覧を見つけました。
オモコロで「サザエさんと一年中ジャンケンしてみた」があったりとか、じゃんけんには都市伝説があったりとかネタ的には面白いかなと思って始めたんですが、R言語が不慣れなので発表当日には「じゃんけんの癖」や「人間乱数の検証」まで間に合わなかったんですよね。
サザエさんの放送は12/22まであるので、2013年のすべてのデータが揃う年末までには完成させようと思ったんですが、休みの期間中というのはやる気が出ないでの、ぐだぐだやっていたら年が明けてしまった感じです。

機械学習を勉強したのに、まったく機械学習標準偏差とか主成分分析とか使えこなせず、中学生並のデータ分析のやり方になってしまいました。
それでも過去10年分のデータと予想手の勝敗結果は、平均勝率0.70となったので、それなりの結果は出せたんじゃないかと思っています。

 

 
【追記 2014/02/15】
他の方のデータ分析方法を調べてみた。
自分の行ったデータ分析(前々回の前回の手と今回の手の類似度を求める)は「N-gram」だったようです。
N-gramとは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。
下記サイトでは、N-gramでの類似度を求めています。
下記サイトでは、自分の本来やりたかった偶然ではないという証明方法ですね。私はやり方が分からなかったので今後の参考にします。
χ2乗検定を使って、偏りの発生確率から検証しています。