« モンゴルの生徒と新潟の小学生の交流 | Home | Googleの新翻訳サービス開始 »

日本語コーパスby国研

先日もお伝えした、国研が公開した「現代日本語書き言葉均衡コーパス」の一部が公開されたというニュース、Nikkei BPでも報道されています。
Nikkei BPのニュース
例えば、「風景」と「光景」の違い、など、実際どのように使われているかが、
大量の使用例を分析することで分かる、と。
元のデータは、
各省庁が刊行した白書のデータ(約500万語分)
ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)
らしいのですが、
どちらも文書作成ソフトで打ち込まれたもの。
あまり意識せずに選択された漢字や、変換ミスとかもありそう。。。

詳しくはこちら。
日本語コーパス

Copyright(C) 日本語教師でいこう All Rights Reserved