日本語のハンデと人工知能とGoogleBooks訴訟

1.機械が「読む」

ICT の多様化により、そこで生み出される情報量が爆発的に増えている情報爆発の時代を、私たちは生きている。呼吸するように、インターネットから情報と知識を得ている。自覚的に呼吸することが稀であるように、その情報や知識がなぜインターネットから得られるのか、考えたことがないのがほとんどだろう。

Google検索の結果得られる情報や知識は、検索対象となるようあらかじめ準備されていてはじめて検索の対象となる。つまり「機械が読める」状態に加工が施されていてはじめて、検索の対象となり、検索結果として表示される。

新聞、雑誌、書籍から人間が目で活字や図画を追うことで「読める」のとは違う、「機械が読める」状態への加工が必要なのだ。たとえば文字にはひとつひとつコードが振られていなくてはならない。その文字列がその文章のタイトルなのであれば、タイトルであると機械がわかるようタグを付与しておかなければならない。

 

2.日本語のハンデ

この、「機械が読める」に関して、日本語は英語と比べハンデを背負い込んでいる。

イ.文字数が多い
ロ.単語の判別が難しい
ハ.文節の理解が難しい
二.本のデジタルデータが少ない

アルファベット26文字と、かなと漢字の組み合わせで数万文字を普段から使っている日本語とでは、用意しておかなければならない文字コードの数が断然異なるということになる。ただこのイ.は、情報端末の記憶容量が各段に増強されたことでだいぶ状況は改善してきた。

難問はロ.ハ.だ。

文字にひとつひとつコードを振ったように、単語にもコードを振って、そこへ属性(名詞か動詞か、単数か複数かなど)を記述しておけば文法と照らし合わせ、機械が、検索窓からの問い合わせ(クエリ)に対し、適切な解となりうる候補テキストをネット上の膨大なデータから探し出すのに、便利だろう。

検索が効率的に、効果的に結果を表示するにはこの単語の判別、文節の理解といった、いわゆる形態素解析という工程が欠かせないのだ。

この観点で英語が有利、日本語が不利だというのはテキスト(文章)の具体例を見たほうがわかりやすい。

“Books can seek to engage the next generation on their phones as well as in print.
E-reader use is declining while phones offer countless new ways to construct narrative and read deeply. These are books that can compete for attention on your phone via incredible, dynamic literature.”
https://docs.google.com/presentation/d/1_mnJdwO2apVzmKau9J4UBW5zRHzuRMecpAh-TMCAzvA/edit#slide=id.gd382c8566_0_25

スマホ時代の文章スタイル
(変えてゆく未来・紡ぐ言葉 100words-essay より
http://100words-essay.blogspot.jp/?view=flipcard  )

英語は単語と単語の間に空間が挟まっていて、単語の認識が簡単だ。しかし日本語はそうはいかない。

単語の判別が難しいと文節の理解も進まない。

文節の理解がないと、文章の内容の理解も、ひいてはクエリとそれへの回答との間の検索ユーザー満足にも支障が生じる。

呼吸と同じくらいにGoogle検索が、その仕組みに意識的にはならずにいる状況で、実は英語と日本語とで検索の精度をあげるうえでの障害の差が大きい。このことは日常生活での検索だけでなく、「知の生成と流通」における情報探索にも関わる重大問題だろう。

 

3.人工知能とGoogle検索の裏側

「文章の内容の理解」といっても検索窓からの問い合わせ(クエリ)とその応答は原理的に、当初はマッチングを基本としたうえで、高速処理ということに技術開発の努力が続けられていた。しかし検索ユーザーに満足を与えるには、マッチングだけでは限界がある。

Googleは1998年に検索事業をスタートさせたが、2005年から人工知能の機械学習機能を採用し始める。そして2015年、ディープラーニング研究の成果物である、「rankbrain」導入を公表した。

ディープラーニングは機械の自律的な学習に道をひらく技術。変数の設定など、人間がやってはじめて機械学習における演算が始まるのとは異なるのが特徴。ナレッジグラフの工夫と組み合わせ、検索エンジンが賢くなるスピードが加速している。

その技術の検索への採用結果、加速の現状は、「検索ユーザーの真意を忖度することができるようになった」、正確には「ある単語を含まないクエリに対して、きちんと回答を出す」という現象に現れている。

「文章の内容の理解」にロ.ハ.のハンデを背負う日本語にとってまずは「朗報!」と受け止めていいだろう。

検索ユーザーの真意を忖度する様子は、これも具体例を見たほうがわかりやすい。米国のものと英国のメディアが整理したものを紹介すると、こんな具合。

まず「オバマ氏の夫人はいつ産まれた?」の質問には、「ミシェル・オバマ」という単語は含まれていないが、きちんとミシェル・オバマ氏の回答を返している例。

(出典: RankBrain(ランク・ブレイン)。人工知能は、既に、Googleの検索結果を処理している。 http://www.seojapan.com/blog/meet-rankbrain-google-search-results

さらに複雑な質問、「ロサンゼルス・エンゼルスがワールドシリーズで優勝したときの米国大統領は誰?」に対し、どういうメカニズムがGoogle検索の裏側で作動しているかが下記の図には整理されている。

(出典:Google検索、英語版で「より長く、複雑な構文」のフレーズに対応 http://wired.jp/2015/11/19/google-search-complex-phrases/

2012年に導入した、個々の検索結果を拡張する知識データベース「ナレッジグラフ(Knowledge Graph)」と人工知能を連携させながら、質問文の各要素を単に理解するのではなく、質問の意味全体を理解できるようにしている。

「われわれは、クエリを分解して、それぞれの単語の意味を理解できるようになりました。いまでは、質問全体の背景にある意図も解釈できます」(Inside Search: The Google app now understands you a little better—complex questions welcome http://insidesearch.blogspot.co.uk/2015/11/the-google-app-now-understands-you.html

 

4.機械の自律的な学習のための材料は豊富か?

ここで四番目の障害が登場する。

イ.文字数が多い
ロ.単語の判別が難しい
ハ.文節の理解が難しい
二.本のデジタルデータが少ない

Googleが格納するデータを原資として人工知能は学習する。その際、「」の文章は体系化、構造化されていて、検索エンジンを人工知能を使って、より賢くするのに有用なデータ群だ。

その「本」のデータ数が、桁ふたつ、ひょっとすると三つくらい違う。英語と日本語では。英語圏には、とりわけ米国ではGoogleが米国著作権法に規定されている「フェアユース」条項のおかげで20百万冊以上の本のデータが格納されているからだ。

2009年の大騒ぎの時に比べ2015年の勝訴は、日本であまり大きく報じられることも議論されることも管見ではなかったように思う。しかしこのインパクトは彼我の「知の生成と流通」に与える影響が大きいと考えた方がよい。

2015年10月16日、ニューヨーク連邦高裁(連邦第二巡回区控訴裁判所)は、Googleの書籍全文検索サービス「Google・Books」がフェアユース(権利制限の一般規定)にあたるとのGoogleの主張を認める判断を下した。

「Google Books」プロジェクトは、「図書館プロジェクト」と、「パートナープログラム」のふたつで構成されている。

「図書館プロジェクト」は、国内外の大規模な図書館(国立・公立・大学図書館など)の蔵書をデジタル化するプロジェクト。デジタルデータは全文(パブリックドメインの場合)、あるいはスニペット(抜粋文)として検索結果に出てくる。前提としてこのプロジェクトに賛同する図書館がGoogleと提携契約を結ばなくてはならない。米国では多くの図書館が参加しているが、日本では慶応大学が参加しているのみ。
・Library Partners – Google Books(提携先一覧 https://books.google.com/googlebooks/library/partners.html

「パートナープログラム」では、著作者や出版社が、書籍のPRを目的としてGoogleブックスに書籍の情報を自分で登録・公開することができる。

ここで、検索結果に出る出ない、に加え、人工知能がディープラーニング技術を使って検索エンジンを賢くすることに使われることに注意を向けたい。

日本でGooglePlay(電子書籍などを販売するサイト)に提供されている有料コンテンツたる「本」の数は10万冊程度と推定される。これに慶応大学から提供されたパブリックドメインの12万点が加わるが到底百万冊を超えることはない。

これに対し、たとえばEBook2.0 Magazine主催の鎌田氏は、

「数百万冊に及ぶ書籍を画像保存し、自由に閲覧できるようにするという壮大なプロジェクト」
(出典: Google判決は忘れたころにやってくる http://www.ebook2forum.com/members/2015/10/us-court-judges-google-scan-as-fair-use/

と述べているが、やや事実誤認がありそうだ。GoogleBooksは、

・20百万冊を超えている
・OCRをかけたテキストデータがある

の2点でEBook2.0 Magazineの記述と異なっている。

少なくとも2013年11月14日決定の裁判資料には次のような記述がある。

被告(Google.Inc)は、2004年以来、複数の大学図書館等とその蔵書をスキャンすることに合意、20百万冊以上の書籍をスキャンした。そのうえで、書籍のデジタルコピーは参加した各図書館に配布、またデータベース化してオンライン上で検索するユーザーに対し、スニペット(ごく一部の抜粋)表示できるようにした。

Since 2004, when it announced agreements with several major research libraries to digitally copy books in their collections, defendant Google Inc.("Google") has scanned more than twenty million books.It has delivered digital copies to participating libraries, created an electronic database of books, and made text available for online searching through the use of"snippets."
(NY州南部地区地方裁判所 2013年11月14日決定の裁判資料 より
http://www.documentcloud.org/documents/834877-google-books-ruling-on-fair-use.html

あれからさらに2年が経過している、スキャン総数は20百万冊を超えている可能性すらある。もっとも、スキャンした本の中には同じものがあるかもしれない。ユニーク数で数百万冊というのが鎌田氏の意見かもしれない。

 

5.Google books Ngram Viewer

さてGoogleに、Google トレンドという検索ボリュームの推移を見るツールがあるのは有名。日本語にも対応しているから。しかしGoogle books Ngram Viewerは日本でほとんど知られていない。日本語に対応していないからだ。

Google books Ngram ViewerはGoogleBooksプロジェクトでデジタル化されたデータ、大量の「」を検索して、文学書やそのほかの本に現れる言葉のはやり廃りを、時系列の折れ線グラフで見ることができるサービス。デフォルトで1800年から2000年までが調べられるような画面になっている。

これも具体例を提示しよう。

まず「fax, phone, e-mail」。

次に「pizza, steak, sushi」。

最後に「modern state, Welfare State」

OCRをかけたテキストデータがあればこそのサービスだ。

いやサービスを面白がってばかりはいられない。人工知能がディープラーニング技術を使って検索エンジンを賢くすることに使われ、その作業のベースに数千万の「本」のデータがある言語とそうでない言語の、知の生産性の開きが、ほとんど意識されていないところでどんどん広がっていると考えるべきだ。

 

6.じゃあ、どうする

鍵は国立国会図書館だろう。

2009年、平成の大改正が行われたが、その中で国立国会図書館における所蔵資料の電子化(第31条)が盛り込まれた。

すなわち第31条「図書館等における複製」の条文に「第2項」という形で条文が追加され、権利者の許諾を得ることなく図書館資料の原本をデジタル化することが国立国会図書館に対して認められた。

もともと国立国会図書館には納本制度があって、全国の出版社は新刊を出した際、1冊を納本する義務がある。これら納本された日本の出版物を、国立国会図書館でデジタル化するところまでは、著者許諾を得ずに行うことがすでに認められているのだ。
(ただしデジタル化されたデータの利活用については、館内での閲覧や複写サービスなどに使われることが前提となっていた。それをさらに2014年改正において、情報提供施設として図書館が果たす重要性を踏まえて、利用者への情報提供などその有効活用を図るべきとの国会での附帯決議もあり、デジタル化資料の一部を大学図書館や公共図書館にネット送信することも認めた)

いまから日本発の検索エンジンを開発するのは現実的ではない。

イ.日本語検索の仕組みのレベルアップのためにだけ使うことを内容とする業務契約を、国立国会図書館とGoogleとの間で締結し、Googleによるデータ活用を認める(デジタル化費用はGoogle側が負担)。
ロ.さらに進んで、スニペット表示までの検索結果をも許容する。

そういうことを大胆に構想することが必要なのではないだろうか。日本語のための「知の生成と流通」の高度化のために。