第4回 言葉の障害に直面する eDiscovery(電子証拠開示) PART I
日本語が3種類の文字で書かれていることや、他の多くの言語で、各単語間に区切れが無く続いていること。
これらは従来言語学者の領域であるが、最近弁護士にとって悩みの種になっており、リーガルテクノロジストは海外のドキュメントを取り込むことに頭を悩ましている。
これらの事象は、訴訟が国際的要素を含むことが多くなったためである。
リーガルテクノロジーの専門家達によると、英語以外の言語でのDiscoveryが最近爆発的に増えており、2年前にはほとんどゼロに近かったのが、今では何十テラものドキュメントを目にすると言う。
こうした背景には、まず2006年の連邦民事訴訟制度 [ Federal Rules of Civil Procedure (FRCP) ] の改正が行われたこと。
また、海外、とりわけ成長が著しいアジアパシフィックにビジネス展開する企業が増加する中、海外においても訴訟リスクやその責任を負わなければならないということがある。
それにともなって、海外展開する企業の訴訟プロセスを助けるDiscovery専門家の海外展開も、言語やテクノロジーの問題が増加していることと関係している。
しかし、問題なのは言語そのものだけというわけではなく、コンピュータの文字コードが持つ障壁もある。
最近までアメリカのドキュメントは ASCIIコード が最も使われており、128種類の文字、数字、記号等の表記が可能であった。
英語を表すにはかろうじて問題は無かったが、特殊な文字をもつ、ロシアやヘブライ語には充分でなく、日本語、中国語、韓国語にとっては完全に不適切なものであった。
これらの言語でも問題のない Unicode が標準として使用されるようになったのは、わずかここ10年である。
eDiscovery関係者であるなら、多くのコンサルタントやベンダーがこの Unicode を扱えることを得意げに語ることを聞いたことがあるだろう。
残念ながら、多くのソフトウエアシステムが依然 ASCII環境でつくられており、外国語のテキストを □ や ? などの記号として認識してしまう。
さらに、英語の各単語が別個のものに分かれているのに対し、多くの他言語の各単語は連続しているのだ。
ドキュメント中の言語がどのように分解されるか理解できない限り、サーチエンジンは、その言語をサーチ出来ないのだ。
米国のDiscovery専門家の一人は 「Unicode を使用しているということのみでは意味がない。」
つまり 「ファイル中の Unicode を認識できるというだけで、それはデータを抽出する際のスタート地点に過ぎない。実際にはサーチソフトウェアはその言語がどのように書かれているかを理解できなくてはならない。」 と語っている。
(August 4, 2008)
「ロー.コム」の記事より
※UBICが提供しているDiscovery支援サービスでは、日本語の各種文字コードに対応しているほか、国内拠点での対応が可能であるため、国外ベンダーにはないきめ細やかなサポートをご提供します。