目次
バリューの概要
WOVN では、Web サイトから取得し、WOVN プロジェクトとそれに紐づくページに追加したテキスト 1 つ 1 つをバリューという単位で管理します。
バリューごとに翻訳を行います。
バリューの区切り方
1 バリューとして扱われる単位は、HTML のブロックタグ単位です。
つまり、1 バリュー = 1 ブロックタグ です。
HTML 要素の中で一番小さなブロックタグが 1 バリューに当たります。
子要素にあたるブロックタグを持つ場合は、その子要素ごとにバリューを分割します。
<div>1バリュー目</div>
<div>
2バリュー目
<div>3バリュー目</div>
<div>4バリュー目</div>
</div>
<div> や <p>、<h1> ~ <h6> のようなブロック単位でマークした文章ごとに WOVN 管理画面へ登録されます。ブロックタグの中に、後述するインラインタグが存在しない場合、このバリューが翻訳の最大単位になります。
<div>
<p>一行目の文章です。</p>
<p>二行目の文章です。</p>
<p>三行目の文章です。</p>
</div>
翻訳の区切り方
バリューの中にインラインタグが含まれていない場合は、1 バリュー内の文章をそのまま翻訳 API へリクエストします。
バリューの中にインラインタグが含まれている場合は、インラインタグを境に文章を分割して翻訳 API へリクエストします。
インラインタグは、 <span>、<a>、<b> 、<i>のようなものを指します。
<div>
今日は<span>晴れ</span>です。
</div>
この場合、下記のようにインラインタグが挿入されている場合、1 文字ずつ(「今」「日」「の」...)翻訳が行われ、翻訳精度は著しく低下します。
<div>
<span>今日の天気は晴れです</span>
<span>今</span>
<span>日</span>
<span>の</span>
<span>天</span>
<span>気</span>
<span>は</span>
<span>晴</span>
<span>れ</span>
<span>で</span>
<span>す</span>
</div>
異なるバリューとして認識されるケース
文章が同じでも、インラインタグの構造が変わると、異なるバリューとして認識されます。
下記の例では、差分はインラインタグの部分のみ(<b> → <i> に変更)ですが、違うバリューとして認識されます。
<div>
今日の天気は<b>晴れ</b>です
</div>
↓
<div>
今日の天気は<i>晴れ</i>です
</div>
そのため、せっかく人力翻訳を行っても、HTML の構造が変わった場合、完全一致バリューとならず、翻訳は共有されない点に注意してください。