作文対訳DB データ抽出システムについて
★★作文対訳DB データ抽出システム改良のお知らせ
作文対訳DBのデータ抽出システムは,長らく不具合を抱えたまま,暫定的な公開をつづけてまいりましたが,2009年10月,抽出システムを大幅に改良し,再公開することができました。
★新たにできるようになったこと
データのダウンロードが可能に
これまでは,データのダウンロード機能に不具合があり,条件を指定して抽出したデータをまとめてダウンロードすることができませんでした。改良後は,抽出したデータをすべて,あるいは任意のものだけを選んでダウンロードすることができるようになります。
さらに多くの添削データを閲覧・ダウンロードすることが可能に
これまでは,私どもで収集した添削データのうちごく一部のものしか公開することができていませんでした。改良後は,約250編の作文について,添削情報を閲覧することが可能になります(そのうち一部の作文については,ひとつの作文に対し複数の添削がついています)。
作文執筆者・添削者についての情報を閲覧・ダウンロードすることが可能に
改良後は,抽出した作文・添削の執筆者・添削者の情報を簡便に閲覧することが可能になります。また,条件を指定して抽出したデータについて,その執筆者・添削者情報をCSVファイルの形にまとめてダウンロードすることもできるようになります。
★従来のデータベースからの重要な変更点
ファイル名が変わります
従来,このデータベースに掲載された作文データのファイル名は,「作文収集国」を表す英字2文字と,執筆者個人を特定するための数字3文字を基本として名づけられていました(例えば,「韓国における協力者の3人目が,日本語で書いた作文」は「kr003j」という名前になっていました)。執筆者の「母語」や「対訳に使用した言語」ではなく「作文収集国」をファイル命名のキーとしたのは,母語認定が困難である場合がある(日常会話ではX語を使用しているが,文章を書く時にはY語のほうが得意,など)インドのような多言語国家では学習者の母語は多様であり,また実際にさまざまな言語が対訳言語として使用されてもいるため,母語または対訳使用言語をキーとすると煩雑になるという理由があったからでした。
しかしながら,今後海外だけでなく,日本国内でも学習者の作文データを収集していくことを考えると,「作文収集国」のみを命名のキーとすることは実際的ではありません(日本国内で収集したデータについては,執筆者の母語にかかわらずすべてjpのカテゴリに入ってしまうため)。一方で,同じZ語母語話者であっても,日本国内の学習者と海外の学習者とでは習得の条件が違うため,「どの国で収集した作文か」という情報も依然として重要であると考えられます。
またこれまでは,「添削情報の付与された日本語作文」のファイル名も,添削収集時期によって命名規則が異なっており,効率的なファイル抽出が難しい状況にありました。
そこで今回,データベースに収録されたデータ全体を整理しなおし,新しいファイル命名規則の下,全ファイルのリネームをおこなうことにいたしました。
新しいファイル名では,データ収集国だけでなく,「そのデータが何語で書かれているか」「執筆者が対訳言語として使用している言語はなにか」「どの作文課題で書かれているか」等の情報もファイル名内で表現されています。
新しいファイル命名規則は,こちらをご覧ください。