スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  • [--/--/-- --:--]
  • スポンサー広告 |
  • トラックバック(-) |
  • コメント(-) |
  • この記事のURL |
  • TOP ▲

Googleがウェブ文書の大規模日本語コーパスを構築・公開 

Googleがやってくれた。
ウェブから取り込んだ日本語ページの文書解析結果公開である。
文の数で200億、単語数で約2550億らしい。
しかも、1~7-gramまでってすごいな。

もとの大学での研究のせいもあって、コーパスと聞くと音声認識結果を補正するための言語モデル構築がぱっと思い浮かぶ。
コーパスは学習元のデータそのものなので、ニュース記事のようなものだけを集めれば、定型文に強くなる。
だけど、今回のWeb文書はまさにカオス。玉石混交の状態である。
ニュース記事のような文書だけではなく、ブログ記事だけに注目すれば、口語表現に強くなりそうだ。
ウェブ文書も住み分けがなされているから、カテゴライズされて公開されると嬉しいかも。
カテゴライズ手法が沢山ありそうだけど。

また、定期的にクロールすれば、新しく出現しつつある言葉も分かるだろうし、ネット上のコミュニティで特有の単語や表現が獲得できそうだ。

個人的には、形態素解析で使う辞書をどのように構築しているのかが気になるなぁ。
パラメータの調整法なんかも肝となる部分だろう。

最終的なコーパスの公開は、学術利用のみが認められている形になったのは残念というか。
企業なので仕方ない気はするけど、あまたの情報を整理するのがGoogleの使命だというのなら、もうちょっと自由な形で公開してかったかも。


参考:
Google Japan Blog: 大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html


Google: 大規模日本語データ公開に関する特別セッション
http://www.google.co.jp/events/anlp2007.html


のほほん徒然 - 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション
http://d.hatena.ne.jp/uchiuchiyama/20070321/further_details_about_google_special_session_in_nlp2007

  • [2007/11/16 08:48]
  • 技術メモ |
  • トラックバック(0) |
  • コメント(2) |
  • この記事のURL |
  • TOP ▲

コメント

うちでも使う人がいる鴨

そこ頼っちゃっていいんですか。w
学術方面での学習データ・テストデータのデファクトになるんですかねぇ・・。

コメントの投稿















管理者にだけ表示を許可する

トラックバック

この記事のトラックバックURL

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。