「作文対訳DB」収録のファイル名について

「作文対訳DB」に収録されるファイルは,今後は以下の規則によって命名されます。

「作文対訳DB データ抽出システム改良のお知らせ」にもどる

日本語作文ファイル・対訳ファイル

      Ja         Ko         KR      015 _   01  _    1  .    txt
{%1執筆言語}{%2執筆者母語}{%3収集国}{%4ID}{%5課題}{%6枝番}{%7ファイル形式} 

ファイル名構成要素

%1 執筆言語
当該ファイルの執筆に使用された言語。ISO 639-1のlanguage code(2-letter code)に準拠して表示。1文字目大文字,2文字目小文字。
%2 執筆者母語
当該ファイルの執筆者が「母語」として申告し,対訳に使用した言語。ISO 639-1のlanguage code(2-letter code)に準拠して表示。1文字目大文字,2文字目小文字。
%3 収集国
当該ファイルを収集した国。ISO 3166-1のcountry code (alpha-2)に準拠して表示。1文字目2文字目ともに大文字。ISO 639-1のlanguage codeとISO 3166-1のcountry codeとは一致しない場合があるので注意が必要です
%4 ID
ファイル収集国内で一意につけられた執筆者番号(数字3文字)。
%5 課題
作文執筆時の「課題文」の種類(数字2文字)。
%6 枝番
1種類のデータが複数のファイルによって構成される場合のファイル順(例えば,複数枚の手書き作文を1枚ずつjpgファイルとして保存してある場合,そのファイルが原稿の何枚目であるかを示す)。1つのファイルのみによって成るデータの場合(テクストファイル,pdfファイルなど),この位置には「1」が入る。
%7 ファイル形式(拡張子)
日本語作文ファイルと,その対訳ファイルは,基本的にはtxtファイルで保存されていますが,場合によってはpdfファイル,jpgファイル(手書き原稿を画像として保存したもの)が存在する場合もあります。
※上記の構成要素のうち,%2~%4は,その作文を書いた執筆者個人に固有の情報を
  あらわしています。そこで,作文IDのうち,%2~%4の部分だけを取り出したものを,
  便宜上「執筆者ID」と呼ぶことにします。

ファイル名の例:

韓国国内(%3:KR)で協力してくれた15人目(%4:015)の協力者である韓国語(%2:Ko)母語話者が,課題文1(%5:01)に基づいて,日本語(%1:Ja)で書いた作文。ファイル形式はテクストファイル(テクストファイルは1ファイルが1データを構成するので,%6:1)。

%1 %2 %3 %4 %5 %6 拡張子
当該ファイルの執筆言語 対訳使用言語または母語 収集国 ID番号 課題番号 ページ順 ファイル形式
Ja(日本語) Ko(韓国語) KR(韓国) 015 01 1 txt

新ファイル名 JaKoKR015_01_1.txt
  ↑
旧ファイル名 kr015j.txt  

※「韓国語」のlanguage codeはKoですが,「韓国」のcountry codeはKRとなります。


日本国内(%3:JP)で協力してくれた68人目(%4:068)の協力者である中国語(%2:Zh)母語話者が,課題文5(%5:05)に基づいて,中国語(%1:Zh)で書いた作文をpdf化したもの。(pdfは1ファイルが1データを構成するので,%6:1)。

%1 %2 %3 %4 %5 %6 拡張子
当該ファイルの執筆言語 対訳使用言語または母語 収集国 ID番号 課題番号 ページ順 ファイル形式
Zh(中国語) Zh(中国語) JP(日本) 068 05 1 pdf

新ファイル名 ZhZhJP068_05_1.pdf
 ↑
旧ファイル名 cn068m.pdf

※「日本語」のlanguage codeはJaですが,「日本」のcountry codeはJPとなります。また,「中国語」のlanguage codeはZhですが,「中国」のcountry codeはCNとなります。


カンボジア国内(%3:KH)で協力してくれた28人目(%4:028)の協力者であるカンボジア語(%2:Km)母語話者が,課題文2(%5:02)に基づいて,日本語(%1:Ja)で書いた手書き作文の2枚目(%6:2)ををjpgファイルとして保存したもの。

%1 %2 %3 %4 %5 %6 拡張子
当該ファイルの執筆言語 対訳使用言語または母語 収集国 ID番号 課題番号 ページ順 ファイル形式
Ja(日本語) Km(カンボジア語) KH(カンボジア) 028 02 2 jpg

新ファイル名 JaKmKH028_02_2.jpg
 ↑
旧ファイル名 kh028j2.jpg

※「カンボジア語(クメール語)」のlanguage codeはKmですが,「カンボジア」のcountry codeはKHとなります。

添削情報付ファイル

      Ja           Nl         BE      009 _   06  _   1  _    4103r   .   xml
{%1執筆言語}{%2執筆者母語}{%3収集国}{%4ID}{%5課題}{%6枝番}{%7執筆者ID}{%8ファイル形式}

ファイル名構成要素

%1~%6
作文ファイルの構成要素と同じ。添削情報の付く作文は必ず日本語で書かれているため,%1は常にJa
%7 執筆者ID
4桁の数字のうち,第1位(左端)の数字は「添削情報収集時期」を示す(第1期:1,第4期:4)。第2位の数字は,同時期に協力してくださった添削者がいくつかのカテゴリに分かれるとき,そのカテゴリを示す(例えば第4期においては,「日本語教師経験豊富群(経験3年以上)」が1,「経験寡少群(3年未満)」が2,「日本語教師準備群(経験なし)が3,となる。添削者がカテゴリに分かれない場合は,第2位の数字は0となる)。第3位,4位が,同時期に協力してくださった添削者のID番号を表す。
%8 ファイル形式(拡張子)
添削情報つきファイルは,基本的にはxmlファイルで保存されていますが,場合によってはjpgファイル(添削付きの手書き原稿を画像として保存したもの)が存在する場合もあります。

ファイル名の例:

ベルギー国内(%3:BE)で協力してくれた9人目(%4:009)の協力者であるオランダ語(%2:Nl)母語話者が,課題文6(%5:06)に基づいて日本語(%1:Ja)で書いた作文に対し,第4期の添削者(経験豊富群の3人目,%7:4103)がおこなった添削をxml化したもの(xmlは1データが1ファイルからなるため,%6:1)。

%1 %2 %3 %4 %5 %6 %7 r 拡張子
当該ファイルの執筆言語 対訳使用言語または母語 収集国 ID番号 課題番号 ページ順 添削者ID r ファイル形式
Ja(日本語) Nl(オランダ語) BE(ベルギー) 009 01 1 4103 r xml

ファイル名 JaNlBE009_06_1_4103r.xml


「作文対訳DB データ抽出システム改良のお知らせ」にもどる