主成分分析,特異値分解および潜在的意味解析

何度やっても忘れてしまう主成分分析(PCA)と特異値分解(SVD)の関係性.忘れてしまうのは分かっていないから.ということで,再度お勉強.

長らくあやふやにしてきた主成分分析の中心化問題.今回の勉強で「主成分分析では事前にデータを中心化する必要がある」ことがようやく理解した.

なぜ中心化が必要か?それは,主成分分析が重心を中心に元データを回転させることで,新たな軸を見つける操作だから.中心化をしないと,元データは原点を中心に回転されてしまう(注:中心化しなくても,主成分分析っぽい導出はできてしまうが,これではダメなのだ(参考:主成分分析 (2) – 主成分の導出と意味)).これでは主成分分析のコンセプトから逸脱してしまう(この理解に至るまで時間がかかった(参考:回転の中心 – 何を基準に考えるか)).

ちなみに,scikit learnのPCAは事前にデータを中心化しなくても,内部で勝手にデータを中心化してくれるようである.一方で,scikit learnのSVDは,データは自動的に中心化しない.SVDは単なる行列分解手法だから,主成分分析を目的としない特異値分解をしたいときに勝手に中心化されても困る.scikit learnでPCAメソッドを使わずに,SVDを使ってPCAを行うときは,対象となる行列を事前に中心化する必要があることに注意.

なお,文書-単語行列の次元圧縮手法である潜在的意味解析(LSI)もSVDを用いるが,LSIでは元データの中心化は行わない.理由は参考サイトにも書かれているように,文書-単語行列はスパースであるため,中心化すると計算量が膨大になること.また,文書ベクトルの類似度は角度が重要であることから,中心化するとその情報が保存されないことが理由だそう(参考:Latent Semantic Indexing and Data Centering).参考サイトにも書かれていたが,文書行列はもともとスパースなので,各次元の平均値はそもそもゼロに近い.これら理由より,LSIでは中心化は行わないようである.

参考にしたサイトの一覧:

手紙

コロナ禍の過ごし方について学生と雑談をしていたとき,学生Aが興味深い取り組みを語ってくれた.Aさんは大切な人Bさんと手紙を始めたそうだ.なお,Aさんは普段手紙は書かない.手紙を書くのも久方ぶりであるとのこと.AさんとBさんは,緊急事態宣言下で会えないほど遠いところに住んでいるわけでもない.にもかかわらず,手紙を書くことにしたというのだ.良い取り組みだと思った.

新型コロナウィルスの問題で人との接触を避けざるを得なくなった今,コミュニケーションのために多くの人がとったアプローチは「インターネットを使ったビデオ通話」である.確かにZoomやWebEx,あるいはもっと手軽なLINE通話などは,ネットさえあればすぐに起動し,リアルタイムに相手の顔を見ながら話をすることができる.対面では会えないけど,手軽に相手とコミュニケーションをとるには有力な方法だ.

一方で,この手のビデオ通話に疲れも感じてきている.ビデオ通話を使えば,手軽にミーティングができることに気づき,ホイホイと予定にミーティングが追加される.気付けば,3時間連続で6つのミーティングが入っている.目的の決まったビデオ会議は,始まりから終わりまであまり余白がない.そして,対面のコミュニケーションと比べて微妙に足りないものに引っかかりを感じる.ビデオ通話は時間的・空間的距離を縮める.直接会って話をすることができない状況を打破するために,ビデオ通話は可能な限りオフラインコミュニケーションを置き換えようとするが,かえってそれがストレスを感じさせる.

手紙はどうだろうか.届くのに時間がかかる.手紙を読むときに相手の顔が映っているわけでもない.即座に相手に返答をすることもできない.ビデオ通話より伝えられる情報は限られる.明らかに手紙は「今風」のリッチなコミュニケーションは演出できない.しかし,あえて限られたスペースに情報を詰め,あえて時間をかけてコミュニケーションをとる手紙は,1回1回のコミュニケーションを味わい深いものにしてくれる.相手からの手紙を待つ楽しみも生まれる.何を書こうかと考える楽しみも生まれる.

メールやLINE,SNSは,即座にコミュニケーションを取れて便利である.一方で,すぐに反応しないといけない強迫観念にせまられることもある.無駄なコミュニケーションも増えたような気もする,便利さ故に,使う側の精神がすり減っていることも事実である.こんな状況だからこそ,手紙をすることで,時間の使い方・感じ方をゆっくりだが味わい深いものにできるかもしれない.大切なものをより大切に感じられるようになるかもしれない.手紙のスローなインタラクションが一層素敵に思えた.

しりとり

研究室の学生とZoomで絵しりとりをした.割と楽しめたのだが,僕が聞いたこともないルールを学生が使っていたことに驚いた.そのルールとは「1文字OK」である.例えば,「するめ(イカ)」と答えた人がいて,次の回答として「め(眼)」を許すというルールである.

しりとりというゲームは,前の人が言った単語の最後の文字から始まる別の単語を考えて,数珠つなぎのように楽しむゲームだから,前に進まない1文字の回答はナンセンスだし,NGルールだと思っていた.ウェブを調べてみると,そういうルールを設ける場合もあるが,Wikipediaを見る限りでは厳格にルールとして設けられてはいないようである.なんだか納得がいかないw

ところで,Wikipediaを読んでいて面白い情報を見つけた.日本語には「る」で始まる単語が極めて少ないそうだ.そのため,「る」で終わる日本語をたくさん知っておくこと,「る」で始まる外国語の単語をたくさん知っておくことが重要であるそうだ.なるほど.

RTX830とRTX830MB

RTX830が使えない問題について,原因が見つかった.自宅に届いたルーターは,RTX830ではなくRTX830MBだったのだ.RTX1210にはなかったシールが貼られていることは気になっていたのだが,見た目もまったく変わらないし,正確な型番表現にはMBがつくのかもくらいにしか考えてなかった.

どうもこのMBが曲者らしい.調べたところによると,RTX830MBは,第一興商という会社が販売しているカラオケ機器のDAM向けのルーターで,RTX830のOEMだそうだ.問題はファームウェアをDAM用に改造してあること.RTX830のマニュアルに従っても,管理画面に入れないことに合点がいく.某掲示板によると,ある操作をすればRTX830の状態に戻るそうだが,その方法は社内秘だそうだ.

僕がRTX830MBを注文していたのなら確認不足を反省するが,注文明細を見直したところ,確かにRTX830を注文している.問題に気付いたので,すぐに返品センターにものを送ったが,こちらの非で返金できないという結果になったら,たまったもんじゃない.

Remoをテスト

バーチャル会議システムRemoを使って見ることにした.遠隔会議にはZoomを利用しているが,どうしてもプレゼンス感が足りないし,何よりもフラット他人と雑談する気にならない.

Remoは,丸テーブルが複数台並んでいるバンケット会場のようなUIを持っており,同じテーブルに座らないとビデオも音声も使えないという仕掛けが面白い.隣のテーブルに誰がいるかは見えるようになっているので,ちょっと会話を変えてみたいと思えば移動すればよいのだ.

会場全体に話しかけたいときは,画面上部のステージに移動する.そうすれば,各テーブルでの会話を強制終了させ,全体にビデオと音声を届けることができる.

非常に良くできた仕組みになっているのだが,弱点は利用料金が高いこと.なんと月額50ドル.これを使えば研究室メンバー間でのコミュニケーションが増えるのであれば,対面でのコミュニケーションができない今であれば支払うのはやぶさかではない.

改正著作権法と授業目的公衆送信補償金制度

改正著作権法により,オンデマンド動画配信等を用いたオンライン授業において,他人の著作物を利用する際の条件が緩和されることになった.SARTRASという団体に補償金さえ支払えば,著作者の許諾を得ることなく著作物を使った授業資料を使ってオンライン講義することが可能になる.

緩和されたとはいえ補償金は支払わないといけないため,教育現場としては他人の著作物を利用したオンライン授業に躊躇してしまう.ところが,この度新型コロナウイルスの件もあり,2020年度は補償金ゼロとする特例措置がとられる準備が進んでいるそうだ(参考).在宅学習用に急遽学習資料を作らないといけない状況なので,この措置が実行されれば非常に助かる.

とはいっても,他者の著作物を利用したコンテンツに不特定多数の人がアクセスできるようにしてしまうのは禁じられているので,受講生のみがアクセスできるようアクセス制限をかける必要はある.

サルの自撮り

「サルの自撮り」という面白い記事を見つけた.ある写真家が,細工を施したカメラをジャングルの中に置き,サルがカメラのシャッターを押して自撮りできるようにした.写真家の思惑通り,猿の自撮り写真が撮れたので,この写真家はサルの写真を「自分の作品」としてリリースした.

ところが,あるメディア団体が「著作権は法律上の人しか持つことができない権利なので,今回の写真はパブリックドメインである」として,公開されているサルの自撮り写真を自由に使って儲けを得た.写真家とメディア団体は法廷闘争に.この過程である動物団体が「サルにも著作権が認められるべきだ」と主張しはじめ,さらに混乱が生じる.最終的に「人間以外に著作権は認められない」という結論になった.経過をすべて終えていないのだが,「写真家にサルの自撮り写真の著作権がある」という結論には至っていないと思われる.

恥ずかしながらこの「サルの自撮り」の話は知らなかったのだが,この話は人工知能が生成した作品に著作権が発生するか否かに関係するものだ.CRIC 外国著作権法 英国編(大山幸房・今村哲也訳)によると,「コンピュータにより生成される文芸、演劇、音楽又は美術の著作物の場合には、著作者は、著作物の創作に必要な手筈を引き受ける者であるとみなされる」となっているが,人工知能が完全に自律的に作品を作った場合はどうなのか?

「サルの自撮り」の件を踏襲すれば,人工知能が作った作品には著作権は発生しないということになる.人工知能を使って文章や画像を作成して情報発信を効率化しようとする流れは加速している.人工知能に著作権は認められなくても,その人工知能を作った法律上の人と人工知能との共同著作にはしたいという人はいてもおかしくない.

Outbreak Simulator

p5.jsの練習課題として,ウイルス感染の拡大・収束する様子をシミュレートするものを作ってみた.元ネタはワシントンポストの「コロナウイルスなどのアウトブレイクは、なぜ急速に拡大し、どのように「曲線を平らにする」ことができるのか 」の記事である.記事を読んで,年齢分布や社会的距離の程度を色々変えてシミュレーションしたかったのだが,やりたいことは大体できた.いい加減にJavascriptを書いているので,N数を増やすと重くなるので,重くならない程度のN数に設定した.

折角なので,以下のURLで公開しておきます.

Outbreak-simulator:
https://hontolab.org/app/outbreak-simulator/

伝えるべき相手に分かる言葉で届くように

全国で新型コロナウィルス(COVID-19)の患者が急速に増えている.若い人が積極的に外出し,知らない間にウィルスを広げているのも原因と言われている.浜松市でも2人目の新型コロナウィルス感染者が確認されたそうだ(浜松市ウェブサイト).浜松市から京都は山科区まで移動し,40名程度が集まるオンラインゲームのオフ会に参加していたそうだ.罹患者は30代.若者である.

政府や自治体,教育機関が自粛を呼びかけているにもかかわらず,なぜ人が集まるところに外出するのだろう.各種報道を見ていると「コロナなんて感染してもクラブに行けば吹っ飛ぶ」とか「どうせ感染しても大丈夫」という声もあるようだ.昨日見た報道で驚いたのは,西日本新聞の記事の内容.自粛要請が出ていることを知らない若者がいるそうだ.

他の人にウィルスをうつすリスクがあることに何も感じない無責任さにも問題があると思う.一方で,西日本新聞の記事を読んで,この状況の中,リスクの高い行動を取る若い人が存在するのは,

  • 彼らに重要情報を伝えるためのチャンネルの選択が間違っている
  • 彼らが理解できるような言葉で情報を伝えていない

ことも問題だということを改めて感じた.

新聞は当然のこと,今の若い人はテレビを持っていない人もいる.テレビを持っていたとしても,ニュースを見ない人もいるだろう.行政のウェブサイトを細かくチェックする人なんかはもっと少なそうだ.今の若い人にはLINEでアプローチした方が,情報が伝わりやすいだろう.

一方で,行政やマスメディアが出す情報を見ても,言葉が難しくて状況や自粛要請の意味が分かっていない若い人は結構いるのではないか.「クラスター」「オーバーシュート」「ロックダウン」とかそういう横文字レベルの言葉は問題外.少し前に,京都大学の准教授が「とっとと感染しちまえ」というツイートをして話題になっていた.既存メディアがこのような伝え方をするのはさすがに難しそうだが,このくらいのレベル感でないと,今の若者には伝わらないのかもしれない.NHKは外国人や小学生・中学生向けに「やさしい日本語で書いたニュース」というものを配信しているが,小難しい言葉が並んだニュースよりも,こういうニュースの見せ方をした方が今はいいんじゃないかとも思った.