文化を定量化する『カルチャロミクス：文化をビッグデータで計測する』

文化は文書という形で蓄積されてきました。

人間ひとりでは、人生を10,000回繰り返してもそれらを読破することは不可能でしょう。ネットの普及で、テキストデータは年間２倍のペースで増大しているとも言われます。

しかし人類はコンピュータというツールによって、文書を瞬間的に解析する技術を獲得しました。

本書は、Googleが提供するNgram Viewerの開発者が、彼らが「カルチャロミクス」と呼称する文化を定量的に観測する方法，およびその意義を紹介しています。

1 N-gramとは
2 Googleのデジタル図書館
3 N-gramで見えてくる文化
4 まとめ

N-gramとは

Google の Ngram Viewerはご存知でしょうか？（https://books.google.com/ngrams)

Ngram Viewerは、Googleブックスの膨大な書籍データから、単語の頻出度を表示してくれるサービスです。

英語，フランス語，ドイツ語，ヘブライ語，イタリア，ロシア語，スペイン語，中国語に対応しています。残念ながら日本語は対応外です。

いくつか試してみましょう。

●「vegan（絶対菜食主義）」

近年、急激に出現頻度を上げています。

●「AI, Artificial Intelligence（人工知能），machine learning（機械学習）」

ピークは1990年代、第２次AIブームですね。その後「AIの冬」で、頻度がガクッと落ちています。ここ10年で、また盛り返している？

●著名な科学者

1800年代はNewtonの出現頻度が高いですね。出版物の種類が少なく、相対的に上昇しているのかもしれません。近年では、Einsteinが１位。

一般呼称では結果が変わります。Einstein，Galileoがほぼその人を指すのに対し、Newtonは単位名としての結果が含まれるため逆転しているのでしょう。

da Vinchは、「Leonald da Vinch」とフルネームで呼称されることがほとんどのようです。

●「Samurai, Ninja」

侍は比較的昔から文献に登場していることがわかります。忍者は今でこそ世界的に知られていますが、1980年代のショー・コスギによるNinjaブームまで、ほとんど文献には現れていません。

●「Halley’s Comet（ハレー彗星）」

地球に接近する周期で、出現率が急上昇しています。次にやって来るのは2061年！

N-gramとは、文章中の「隣り合ったN文字の塊」を指します。かのクロード・シャノンが考案した言語モデルです。（シャノン末恐ろしい…）

N-gramを用いると、文章中で分節の順が異なっていても単語の種類・頻度を比較できるため、文章の類似度の調査などに使用されます。コピペして、文章中の単語を少し変えたり順番をいじっても、すぐにバレるということですね。

・・・

例を挙げてみましょう。

・毎朝パンを朝食に食べます。
・朝食にパンを毎朝を食べます。

2-gramでの類似度は75% [‘毎朝’, ‘パン’, ‘ンを’, ‘朝食’, ‘食に’, ‘食べ’, ‘べま’, ‘ます’, ‘す。’]

・毎朝パンを朝食に食べます。
・朝ごはんにパンを食べるのが日課です。

2-gramでの類似度は33.3% [‘パン’, ‘ンを’, ‘食べ’, ‘す。’]

・毎朝パンを朝食に食べます。
・私は今ブログを書いています。

2-gramでの類似度は16.7% [‘ます’, ‘す。’]

文の順番を変えただけでは類似度が高く、関連がない文章では類似度が低くなります。

Googleのデジタル図書館

Googleは「世界中のすべての情報の整理」を社是として掲げており、本もその対象です。

こうして生まれたGoogleブックスは、2018年10月のWikipedia情報で、全文表示が100万冊以上，スキャン済みが1200万冊以上となっています。（1,200万冊は2010年のニュースサイトからの引用ですので、2018年現在世界中のどの図書館の収蔵数より多い？）

それに目をつけたのが、本書の著者エレツ・エイデンと、ジャン=バティースト・ミシェル。語句の出現頻度から文化を統計的に評価する研究をしていた彼らにとって、Googleブックスのデータはまさに宝の山です。

しかし、当然立ちはだかるのが著作権の壁。本の全容は閲覧できません。そこで考え出されたのが、N-gramを用いた方法。文脈の要素を削除し、語句だけを参照することによって著作権の壁をクリアしました。

N-gramで見えてくる文化

本書では、N-gramで「文化を定量化した」例がいくつか示されています。

不規則動詞

英語の不規則動詞。はじめて英語に触れる人泣かせの厄介な代物です。何故 -edを付けるだけの規則動詞と、不規則動詞が存在するのでしょう。

その答えは「自然淘汰」にあると、本書では述べられます。

・・・

不規則動詞 sing, ringなどは、インド・ヨーロッパ祖語の変形を受け継いでいます。

sing-sang-sung, ring-rang-rung

その昔、英単語はこれらの不規則動詞が基本系でした。不規則ではなく、昔の基準ではこちらの変形が規則だったのです。

しかし新しい単語が発明されると、従来の不規則動詞の変形では対応できないものが増えてきました。

そこで取り入れられたのが、ドイツ祖語由来の -edを付ける変形。どのような単語にも使用できる利便性から、一気に広がりました。

昔からの不規則動詞と、-edをつける規則動詞。両者が混在した状態が続きます。しかし現在、不規則動詞は動詞全体の３％まで減少しています。

・・・

ジップの法則と呼ばれるべき乗分布が世界には溢れています。地震の発生頻度と規模，砂粒の大きさと数，収入の分布，友人の数などはよく知られる例ですね。

べき乗分布は当ブログでも何回か取り上げています。

愚公は引越しました

歴史に法則はあるか『歴史は「べき乗則」で動く』

１つの因子が、相互につながりのある別の因子の影響を受けるネットワークを作るとき、全体として挙動が予測できない系「複雑系」を形成します。このような複雑ネットワークがもつ特性に「べき乗則」があります。例えば地震の規模と発生頻度もその１つです。複雑系を扱う類書は数多くありますが、本書は自然界に見られるべき乗則に触れた後、「歴史」に焦点を当てている点が特徴的です。自然界に潜む「べき乗則」私たちは、「ある物事は平均値に該当する割合がもっとも多い」と直感的に感じてしまいます。例えば、身長の分布は...

文章中の単語の出現頻度も、べき乗分布に従います。

本書によると不規則動詞は動詞全体の３％ですが、使用頻度上位10位に入る動詞はすべて不規則動詞だそうです。

つまり、今なお残る不規則動詞は、使用頻度故にその変形を今に残しているのです。

今残っている三〇〇ほどの不規則動詞は、二五〇〇年もの長きにわたって戦ってきた。これらの不規則動詞は単なる例外ではなく、戦いを生き抜いた猛者たちなのである。

ー本文より引用

また本書によると、現在残っている不規則動詞が、将来的に規則動詞に置き換わってしまう時期も使用頻度から予想できるそうです。heave（持ち上げる），shed（発散する)，sow（播く），wed（結婚する) などが候補だそう。確かに聞き慣れない単語ばかりです。（weddingはよく聞きますが、「結婚する」ならmarryがよく使われますね。）

Wikipediaの不規則動詞を見てみると、「規則変化もあり」と注意書きされている単語があります。これらが近い将来規則動詞に置き換わっていくのでしょう。

石が長い時間水にさらされて角がとれるように、使用頻度によって単語がどんどん規則化されていくのですね。まさに「自然淘汰」。

日本語では、「ら抜き言葉」がそうでしょうか。ら行が続くと発音しにくいことがら抜きの一因です。将来的に「ら抜き」の使用頻度が上がると、正式な日本語として使用される将来が見れるでしょう。