Googleがウェブ文書の大規模日本語コーパスを構築・公開
Googleがやってくれた。
ウェブから取り込んだ日本語ページの文書解析結果公開である。
文の数で200億、単語数で約2550億らしい。
しかも、1〜7-gramまでってすごいな。
もとの大学での研究のせいもあって、コーパスと聞くと音声認識結果を補正するための言語モデル構築がぱっと思い浮かぶ。
コーパスは学習元のデータそのものなので、ニュース記事のようなものだけを集めれば、定型文に強くなる。
だけど、今回のWeb文書はまさにカオス。玉石混交の状態である。
ニュース記事のような文書だけではなく、ブログ記事だけに注目すれば、口語表現に強くなりそうだ。
ウェブ文書も住み分けがなされているから、カテゴライズされて公開されると嬉しいかも。
カテゴライズ手法が沢山ありそうだけど。
また、定期的にクロールすれば、新しく出現しつつある言葉も分かるだろうし、ネット上のコミュニティで特有の単語や表現が獲得できそうだ。
個人的には、形態素解析で使う辞書をどのように構築しているのかが気になるなぁ。
パラメータの調整法なんかも肝となる部分だろう。
最終的なコーパスの公開は、学術利用のみが認められている形になったのは残念というか。
企業なので仕方ない気はするけど、あまたの情報を整理するのがGoogleの使命だというのなら、もうちょっと自由な形で公開してかったかも。
参考:
Google Japan Blog: 大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html
Google: 大規模日本語データ公開に関する特別セッション
http://www.google.co.jp/events/anlp2007.html
のほほん徒然 - 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション
http://d.hatena.ne.jp/uchiuchiyama/20070321/further_details_about_google_special_session_in_nlp2007
ウェブから取り込んだ日本語ページの文書解析結果公開である。
文の数で200億、単語数で約2550億らしい。
しかも、1〜7-gramまでってすごいな。
もとの大学での研究のせいもあって、コーパスと聞くと音声認識結果を補正するための言語モデル構築がぱっと思い浮かぶ。
コーパスは学習元のデータそのものなので、ニュース記事のようなものだけを集めれば、定型文に強くなる。
だけど、今回のWeb文書はまさにカオス。玉石混交の状態である。
ニュース記事のような文書だけではなく、ブログ記事だけに注目すれば、口語表現に強くなりそうだ。
ウェブ文書も住み分けがなされているから、カテゴライズされて公開されると嬉しいかも。
カテゴライズ手法が沢山ありそうだけど。
また、定期的にクロールすれば、新しく出現しつつある言葉も分かるだろうし、ネット上のコミュニティで特有の単語や表現が獲得できそうだ。
個人的には、形態素解析で使う辞書をどのように構築しているのかが気になるなぁ。
パラメータの調整法なんかも肝となる部分だろう。
最終的なコーパスの公開は、学術利用のみが認められている形になったのは残念というか。
企業なので仕方ない気はするけど、あまたの情報を整理するのがGoogleの使命だというのなら、もうちょっと自由な形で公開してかったかも。
参考:
Google Japan Blog: 大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html
Google: 大規模日本語データ公開に関する特別セッション
http://www.google.co.jp/events/anlp2007.html
のほほん徒然 - 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション
http://d.hatena.ne.jp/uchiuchiyama/20070321/further_details_about_google_special_session_in_nlp2007
- [2007/11/16 08:48]
- 技術メモ |
- トラックバック(0) |
- コメント(2) |
- この記事のURL |
- TOP ▲
トラックバック
この記事のトラックバックURL
- | HOME |





