Outbreak Simulator

p5.jsの練習課題として,ウイルス感染の拡大・収束する様子をシミュレートするものを作ってみた.元ネタはワシントンポストの「コロナウイルスなどのアウトブレイクは、なぜ急速に拡大し、どのように「曲線を平らにする」ことができるのか 」の記事である.記事を読んで,年齢分布や社会的距離の程度を色々変えてシミュレーションしたかったのだが,やりたいことは大体できた.いい加減にJavascriptを書いているので,N数を増やすと重くなるので,重くならない程度のN数に設定した.

折角なので,以下のURLで公開しておきます.

Outbreak-simulator:
https://hontolab.org/app/outbreak-simulator/

伝えるべき相手に分かる言葉で届くように

全国で新型コロナウィルス(COVID-19)の患者が急速に増えている.若い人が積極的に外出し,知らない間にウィルスを広げているのも原因と言われている.浜松市でも2人目の新型コロナウィルス感染者が確認されたそうだ(浜松市ウェブサイト).浜松市から京都は山科区まで移動し,40名程度が集まるオンラインゲームのオフ会に参加していたそうだ.罹患者は30代.若者である.

政府や自治体,教育機関が自粛を呼びかけているにもかかわらず,なぜ人が集まるところに外出するのだろう.各種報道を見ていると「コロナなんて感染してもクラブに行けば吹っ飛ぶ」とか「どうせ感染しても大丈夫」という声もあるようだ.昨日見た報道で驚いたのは,西日本新聞の記事の内容.自粛要請が出ていることを知らない若者がいるそうだ.

他の人にウィルスをうつすリスクがあることに何も感じない無責任さにも問題があると思う.一方で,西日本新聞の記事を読んで,この状況の中,リスクの高い行動を取る若い人が存在するのは,

  • 彼らに重要情報を伝えるためのチャンネルの選択が間違っている
  • 彼らが理解できるような言葉で情報を伝えていない

ことも問題だということを改めて感じた.

新聞は当然のこと,今の若い人はテレビを持っていない人もいる.テレビを持っていたとしても,ニュースを見ない人もいるだろう.行政のウェブサイトを細かくチェックする人なんかはもっと少なそうだ.今の若い人にはLINEでアプローチした方が,情報が伝わりやすいだろう.

一方で,行政やマスメディアが出す情報を見ても,言葉が難しくて状況や自粛要請の意味が分かっていない若い人は結構いるのではないか.「クラスター」「オーバーシュート」「ロックダウン」とかそういう横文字レベルの言葉は問題外.少し前に,京都大学の准教授が「とっとと感染しちまえ」というツイートをして話題になっていた.既存メディアがこのような伝え方をするのはさすがに難しそうだが,このくらいのレベル感でないと,今の若者には伝わらないのかもしれない.NHKは外国人や小学生・中学生向けに「やさしい日本語で書いたニュース」というものを配信しているが,小難しい言葉が並んだニュースよりも,こういうニュースの見せ方をした方が今はいいんじゃないかとも思った.

日本プロ野球(NPB)のチーム戦闘力の統計モデリング

ここ1ヶ月くらいでNumPyroの練習をやってきた(記事1記事2).よく分からなかったnumpyro.plateの意味も,ドキュメントを読んでようやくちゃんと分かった(気がする).

そろそろNumPyroの練習に切りをつけるために,何かよい課題はないかということで,2次元データのソフトクラスタリング(混合ガウス分布)を扱おうと思ったのだが,離散値を潜在変数に設定したときにNumPyroではNUTSが使えないことが分かり断念.

このまま終わるのは後味が悪いので,NumPyro短期練習の最終回として「日本プロ野球のチーム戦闘力のモデリング」を題材にしてみることにした(GitHub Gistの元記事).同じ題材を扱った事例がSlideShareにあるが,モデリングの方法が異なるので,比べてみると面白いと思う.

JCDL2020に論文が採択されました

兵庫県立大学の山本岳洋准教授との共同研究の成果として,下記の論文がThe 20th ACM/IEEE on Joint Conference on Digital Libraries (JCDL 2020) に採択されました.

Yusuke Yamamoto and Takehiro Yamamoto: “Personalization Finder: A Search Interface for Identifying and Self-controlling Web Search Personalization”, Proceedings of the 20th ACM/IEEE on Joint Conference on Digital Libraries (JCDL 2020), China, Xi’an, August 2020 (Full Paper 61/196 = 31.1%)

後日,詳細な書誌情報を掲載する予定です.

600人規模のオンライン学術学会DEIM2020が開始

2020年3月2日〜4日にかけて,福島は郡山で開催が予定されていた国内学会DEIM2020.コロナウイルスの影響で,オフライン開催からオンライン開催に実施形態を変更.600人規模が集まる国内学会をオンライン開催するというのは,実に壮大な実験である(報道).

参加してみると,心配は杞憂であった.うちの研究室からは,

  • 村田百葉, 山本祐輔, 「SmileGlasses:笑顔形成を促進するARメガネ」
  • 鈴木雅貴, 齊藤史明, 山本祐輔,「確証バイアスとウェブ検索行動の関係分析」
  • 齊藤史明, 山本祐輔,「QAサイトにおける質問応答に着目した気づきを促す問いかけの分析」

の3件を発表.うち1件を今日発表したのだが,研究発表,質疑応答ともに問題なく行えた.たしかに

  • 会場の雰囲気が肌感覚で分からない,
  • 質疑コメントをしていいのか,挙手をするタイミングが分かりづらい
  • セッション後のオフライントークができない

などの問題はあるかもしれないが,運営側がそこまで気が回らないのは仕方がないだろう.これだけの規模のオフライン会議を初めて実施したのだから,今回の経験を次に活かすことでもっと素晴らしいオンライン学会にできると思う.

さて,今回のオンラインDEIM2020であるが,参加にあたって,運営側が「DEIM2020 オンライン開催 虎の巻」をまとめてくださっている.DEIMはデータ工学の学会で参加者は情報社会の発展に貢献しようとしているわけだから,今回の学会の知見をGitHub上のコンテンツに反映し,虎の巻を充実させることで,大規模オンライン学会の運営や参加方法がオープンソース化されたらかっこいいのになぁと思う.

確率分布の平均と分散に関する諸公式の導出メモ

確率分布の期待値や分散に関する諸公式をしょっちゅう忘れるので,記憶に定着させるために諸公式を導出してみたメモ.以下の式は,確率変数\(X\)と\(Y\)がどんな確率分布に従っているかに依らず導き出される性質である.

期待値(平均)と分散

確率変数\(X\)の確率密度関数は\(f(x)\)とする.

$$ E(X) =  \int_{-\infty}^{\infty} x f(x) dx $$

\begin{align}
V(X) &= \int_{-\infty}^{\infty} (x – \mu)^2 f(x) dx \\
&= \int_{-\infty}^{\infty} x^2 f(x) dx -2 \int_{-\infty}^{\infty} \mu_x x f(x) dx + \mu^2 \int_{-\infty}^{\infty} f(x) dx \\
&= E(X^2) -2 (E(X))^2 + (E(X))^2 \\
&= E(X^2) – (E(X))^2
\end{align}

諸公式の導出

確率変数\(X\)の確率密度関数を\(f(x)\),\(E(X) = \mu_x\) ,\(V(X) = \sigma_x^2\)とする.また,確率変数\(Y\)の確率密度関数を\(g(x)\),\(E(Y) = \mu_y\) ,\(V(Y) = \sigma_y^2\)とする.また,確率変数\(X\)と\(Y\)の同時確率密度関数を\(p(x, y)\),共分散\(Cov(X,Y)\)をとする.このとき,

\begin{align}
E(X+Y)&=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x+y) p(x, y) dx dy \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) dx dy + \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} y p(x, y) dx dy \\
&= \int_{-\infty}^{\infty}  x p(x) dx + \int_{-\infty}^{\infty}  y p(y) dy \\
&= E(X) + E(Y)
\end{align}
\begin{align}
E(aX+b)&=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (ax+b) f(x) dx \\
&= a \int_{-\infty}^{\infty} xf(x)dx + b \int_{-\infty}^{\infty} f(x)dx\\
&= aE(X) + b
\end{align}
\begin{align}
V(aX+b)&= E((aX+b)^2) – (E(aX+b))^2 \\
&= E(a^2X^2 + 2abX + b^2) – (aE(X)+b)^2 \\
&= a^2E(X^2) + 2abE(X) + b^2 – a^2E(X)^2 – 2abE(X) – b^2 \\
&= a^2(E(X^2) – E(X)^2) \\
& = a^2 V(X)
\end{align}
\begin{align}
Cov(X,Y)&= E((X-\mu_x)(Y-\mu_y)) \\
&= E(XY-\mu_xY-X\mu_y+\mu_x\mu_y) \\
&= E(XY)-E(\mu_x)E(Y)-E(X)E(\mu_y) +E(\mu_x)E(\mu_y)\\
& = E(XY) – E(X)E(Y)
\end{align}
\begin{align}
V(X+Y)&= E((X+Y)^2) – (E(X+Y))^2 \\
&= E(X^2 + 2XY + Y^2) – (E(X) + E(Y))^2 \\
&= E(X^2)+2E(XY)+E(Y^2) – (E(X)^2 + 2E(X)E(Y) + E(Y)^2) \\
& = (E(X^2)-E(X)^2) + (E(Y)^2 – E(Y)^2) + 2(E(XY) – E(X)E(Y)) \\
& = V(X) + V(Y) + 2Cov(X,Y)
\end{align}

※ 確率変数\(X\)が正規分布\(N(\mu, \sigma^2)\)に従うとき,確率変数\(aX+b\)は平均\(a\mu +b)\),分散\(a^2\sigma^2\)の正規分布に従う.しかし,\(E(aX+b)=aE(X)+b\)をもって\(aX+b\)が正規分布に従うとは言えない.確率変数\(aX+b\)が正規分布に従うことは,別途証明が必要(正規分布の再生性).

MathJax-LaTeXで数式をインライン表示にする方法

WordPressで数式を表示するプラグインとしてMathJax-LaTeXというものがある.このプラグインを用いると,$$\[latex\]というタグで囲った箇所でLaTeXコードが使えるようになる.

ところが,上記コードはdisplay表示であるため,数式で改行されてしまう.文中で数式が使いたい,つまりインライン表示をしたいときには使えないのである.

MathJax-LaTeXに関する記事を漁ってみると,\( \)でLaTeXコードを囲むとインライン表示ができるという情報があったので試してみたが,うまくいかない.

試行錯誤した結果,\がエスケープ用の文字として認識しているのではないかと思い,\\( \\)と書いてみたところ… うまくできた!これで\(N(\mu, \sigma^2)\)のようにインライン表示ができるようになった.

\( \)と書いてもうまくいった人がいるようなので,おそらくWordpressに入れた他のプラグインが悪さをしているのかと思う.

受信メッセージ数のモデリング

先日投稿した記事「NumPyroによる本塁打率のモデリング」に続き,NumPyroの試し書きを続けている.今回の題材は「Pythonで体験するベイズ推論」の一節から.

この書籍はPyMC2を用いて確率的プログラミングを行っているのだが,個人的に題材が面白くて気になっていた.PyMC2をやろうと思って2,3年が経過して,その間,TheanoベースのPyMC3がリリースされ,その後Theanoの開発終了を受け,TensorFlowベースのPyMC4の開発が開始されることになり… NumPyroに心移りし,PyMCを学ぶのはやめることになったが,確率的プログラミングの題材としては十分に役知立ちそうだ.

GistにアップしたJupyter notebookの記事埋め込み時の問題

以下の記事を書く際,Jupyter notebookのファイルをGistにアップし,GistコードをWordpressに埋め込む処理を行った.しかし,なぜかスクロールバーが消えない.CSSでiframeの高さを設定してもうまくいかない.Gistコードの埋め込みを行っている他の記事ではこんな問題は起きなかったのだが…

どうやらJupyter notebookの埋め込みを行うときに問題が起きるよう.同じ問題に苦しんでいる人がチラホラいるようなのだが,よい解決法がないみたい.残念.

NumPyroによる本塁打率のモデリング

NumPyroによる本塁打率のモデリング

これまで,検索閲覧時間やページ閲覧回数などの行動データの統計モデリングを行うときは,メインのプログラミング言語であるPythonではなくRを使っていた.具体的にはbrmsというパッケージを利用していた.Rとbrmsを使えば,確率モデルを数式チックに記述できる.また結果を可視化し分析するパッケージ群が豊富にあるということで,Pythonを手放してまでRを使っていた.

ところが,Rだと計算が遅い.Rでは並列化やGPU利用に少々難がある.何より,使い慣れたPythonで前処理から分析を行いたい.これら問題を解決するためのツールとして,Pythonでは確率的プログラミングのライブラリとしてTensorFlow ProbabilityPyroが公開されている.しかし,これらはTensorの扱いに慣れていない軟弱な僕にはつらい.

諦めていたところ,最近NumPyroというライブラリがあることを知った.なんとTensorではなくnumpyのarray形式でデータを扱えるというではないか.開発もPyroと同じUber AI Labsによって行われているので,メンテナンスもしっかりしてそう.ということで,NumPyroの使い方を勉強してみることにした.

題材として,以前から気になっていた@muijpさんの「野球選手が本塁打を一番打てるのは何歳のときなのかPythonStanで求める」をNumPyroで実装してみることにした.

以下は,NumPyroでの統計モデリングの実装方法に関する記事である.どうぞご笑覧ください(Github Gistコードへの直リンク).