Tag Archives: ナレッジグラフ

日本語のハンデと人工知能とGoogleBooks訴訟

1.機械が「読む」

ICT の多様化により、そこで生み出される情報量が爆発的に増えている情報爆発の時代を、私たちは生きている。呼吸するように、インターネットから情報と知識を得ている。自覚的に呼吸することが稀であるように、その情報や知識がなぜインターネットから得られるのか、考えたことがないのがほとんどだろう。

Google検索の結果得られる情報や知識は、検索対象となるようあらかじめ準備されていてはじめて検索の対象となる。つまり「機械が読める」状態に加工が施されていてはじめて、検索の対象となり、検索結果として表示される。

新聞、雑誌、書籍から人間が目で活字や図画を追うことで「読める」のとは違う、「機械が読める」状態への加工が必要なのだ。たとえば文字にはひとつひとつコードが振られていなくてはならない。その文字列がその文章のタイトルなのであれば、タイトルであると機械がわかるようタグを付与しておかなければならない。 Continue reading