【デジタル】暑い日が続きますが、ベイズの定理など新しい学びを始めました
最近、かなり暑い日が続いていますね。僕はといえば、最近庭にエキナセアを植えては枯れ、植えては枯れを繰り返して凹んでいます。暑すぎて、ちょっとうまくいかない感じなんですかね?
無駄に水を与えるとかしてないのに、なんかうまくいかず、植えてから二日くらいで速攻で花が枯れ始めます。まぁ、昔からうちの庭はエキナセアうまくいかない感じで。ダリアは普通に元気なんだけどねー。腐葉土率もかなり高いので、水捌けも悪くないんですけどね。また、明日新たな株にチャレンジしてみようと思います。もともと、買ってきている時点で根詰まり起こしてるかもなので、次の株はほぐしてから植えてみようと思っています。
さて、最近新しい学びを始めました。LLM(Large Language Model)からの、自然言語処理(Natural Language Processing)+ベイズ統計。後者のベイズ統計は、詳しくは知らずともずっと概念は使っていたのですが、この機会なのでしっかり学ぼうと思っています。というか、自分の使っている統計モデルが「ベイズ統計」と言う名前だと知らずに結果としてここに行き着いていた感じで。これは僕がずっとコンテクスチュアルコミュニケーションをずっと続けてきた結果、人力でこれを解析すると言うよくわからない力技で動いていたのですが、僕の頭の中で考えていることの最適化モデルを作ることで、作業工数を大幅に削減できそうだなと思って学ぶことにしたって感じです。学ぶと言うか、早速使い方を模索し始めているのですが、使うためには基礎学習大事と言うことではやる気持ちを抑えながら今週から学びを始めました。
さて、このベイズ統計。「なにそれ?」って感じですよね。このベイズ統計は、18世紀のイギリスで長老派教会(プロテスタント、カルヴァン派の一派)の牧師であり、哲学者であり数学者であったトーマス・ベイズ氏によって開かれた「ベイズの定理(Bayes’ theorem)」を単著とした統計の考え方です。ざっくりいうと、「過去の知見やデータに基づく仮説を前提に追加でデータ検証を行い、その結果を元により精度の高い事実に基づく事象の出現確率を導き出すこと」だと僕は感じています。まぁ、この辺は人によって解釈があると思うので、「それは違う」と思う人もいるかもしれませんが、僕はそう感じました。ちなみに、この仮説は当てずっぽうではダメで、ある程度のこれまでの積み重ねなどから見えてきている事実に近い情報であることが大前提だと思っています。公式にすると、下の感じになります。
なんのことかわからないと思うので、これを解説すると下記の通りとなります。
- P(A):【事前確率 】事前に設定する「過去の知見やデータに基づく仮説に基づく事柄」の発生確率
- P(B|A):【尤度(ゆうど)】「過去の知見やデータに基づく仮説に基づく事柄」の中に、「ある特定の事象」が含まれる尤もらしさ(もっともらしさ)
- P(B):【尤度(ゆうど)】全体の中で「ある特定の事象」が含まれる尤もらしさ(もっともらしさ)
- P(A|B):【事後確率】「ある特定の事象」が含まれるサンプルの中に「過去の知見やデータに基づく仮説に基づく事柄」が発生する確率
いよいよわからなくなってしまっているかもしれないので、ちょっと事例を。
・飲酒可能な成人人口のうち、月一回以上ビールを飲む人は50%
これを図にすると、下記の通りとなります。
次に、ここに下記の条件を付け加えます。
・月一回以上ビール飲用者のうち、ヱビスビール1年以内飲用者である確率は40%
・月一回以下ビール飲用者のうち、ヱビスビール1年以内飲用者である確率は10%
月一回以上ビールを飲む人の中で、ヱビスビールを1年以内に飲用している確率は40%なので「月一回以上ビール飲用、かつ1年以内ヱビスビール飲用者である確率」は20%。
月一回以下しかビールを飲まない人の中で、ヱビスビールを1年以内に飲用している確率は10%なので、「月一回以上ビール飲用、かつ1年以内ヱビスビール飲用者である確率」は5%。
このことから、「成人人口全体で1年以内にヱビスビールを飲んだことがある確率」は25%であることが導き出せます。
ここから導き出した条件を、さっきのベイズの定理に当てはめた式がこちら。
これは、一定条件をかけることで求めている条件に到達する精度を高めていくという方法論に行き着くわけで、僕らが日頃コミュニケーションを構築する際に「会員になって、かつメールマガジンを開封してくれているユーザーは、他のユーザーに比べて購買頻度が高い」と言う様な仮説を仮説に留めず、より確度の高いデータに基づくマーケティング的データに昇華させるプロセスなんだなーと。
この情報の更新を、「ベイズ更新」と言うのですが、ここで出てきた情報を元に、さらに条件を掛け合わせることで情報制度を高めていけると言うのも面白いですよね。というか、そう言うことをずっと勝手にやってたんですが、正しいやり方を知ることでさらにアップデートできそうだなぁとワクワクしています( ´∀`)
この定理って、実際色々なところで活用されててメルマガのスパム判別とか、検索エンジンのフィルター(ベイジアンフィルター:Bayesian filter)とか、機械学習とかそれはもうさまざまな場所で活用されています。
僕がよく使っている、コンテクストマッチとかレコメンドエンジンもこのベイズの定理がベースの様で。
いや、勝手に行き着いていたんですが、ちゃんと間違ってなかったなぁと。
ちなみに、mete keywordはSEOに関係ないと言われるのですが、Googleがここを見ないと宣言した事の裏側にはベイジアンフィルターが発達して、そもそも参照しなくてもよくなったことがあるのだろうなーとかも思っていたりします。
掘り起こしていくと、色々わかることも増えていくと思いますので、この辺の自主学習についてはつどつどメモを残していこうと思います。
NLPやLLMも、僕の進めているコンテクストの話と繋がってくるので、いずれまた書きますね!
ちなみに、ここについても読み進めて理解したいと思います。
◼️真の分布を知ることができる限界について
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/waic_comment.html
統計学の権威、渡辺澄夫先生の研究室のページの一つです。
なんと「このページは2024年3月までに終了します。長い間のご愛顧、ありがとうございました。」と言うことで読めるのはあと少し。
渡辺先生が退職するため、研究室のページがなくなってしまうことが理由です。
うむー。
まぁ、ちゃんと書籍買えばいいのですが。書いてあるのかな?
結構お値段はりますが、この書籍を買う予定です。
ベイズ統計の理論と方法
何事も、学びからと言う感じで。