Vortaro kun 230 mil tradukoj
Kajero

📈Ekzercejo

Trovi parte kongruajn (Uzeblas regulaj esprimoj)

🔍️ Trovi similajn vortojn 似た単語を表示

Prononco per kanaoj:
【 ヴォター が 辞 書 を 再 発 明 す る は な し 】

【vortaro.jpが辞書を再発明するはなし】

これは「語学・言語学・言語創作 Advent Calendar 2023」の 19 日目の記事です。

はじめに

Kajero(https://vortaro.jp/)とは、主にエスペラント語、日本語、イド語、英語、中国語に対応した多言語辞書です。インターネット上にすでに公開されているデータソースを主に利用し、訳語およそ20万対のデータから語彙間の関連を推定。多言語辞書引きを実現します。使い方、出典はこちらをご覧ください。

Kajeroは、データとして直接には保持していない訳語も導出できます。今回はその原理についてお話しします。

Kajero訳語導出原理

1. 辞書形式とその提示

Kajeroの辞書データは次のような形式をしています。

t(['forkomerci',eo],['売り払う',ja],[pejv],'').
t(['forkomerci',eo],['売りとばす',ja],[pejv],'').
t(['forkomerci',eo],['forvendi',eo],[pejv],'').
t(['forkomerci',eo],['to buy',en],['ESPDIC'],'').
t(['forkomerci',eo],['purchase',en],['ESPDIC'],'').
t(['forkomerci',eo],['take over',en],['ESPDIC'],'').
  • t( ). で囲われた部分はエントリを示し、
  • ['forkomerci', eo], ['売り払う', ja] が訳語の対になっています。ひとつのエントリには訳語を1対ずつ配置します。
  • 続く [pejv], が出典を示し、
  • 最後の '' は、補足の自由記述欄です。

この形式のエントリが連なって辞書データをなします。内蔵データは約20万行です。

Kajeroは、まずこの辞書データのとおりに訳語を出力します。実際の画面で確かめてみてください。

2. 関連語彙推定

しかしこのページには、

  • (en) to sell off (aŭtomata sugesto)
  • (en) liquidate (aŭtomata sugesto)

という、元のデータでは関連付けられていない訳語が提示されています。これらは、forkomerci の同義語としてデータに掲載されている forvendi の訳語としてデータが存在しており、ここから採用されたものです。

t(['forvendi',eo],['売り払う',ja],[pejv],'').
t(['forvendi',eo],['売りとばす',ja],[pejv],'').
t(['forvendi',eo],['to sell off',en],['ESPDIC'],'').
t(['forvendi',eo],['liquidate',en],['ESPDIC'],'').

Universala Vortaro

ザメンホフのあまり表立って評価されない成果のひとつに、Universala Vortaro があります。Universala Vortaro とは、見出しにエスペラントの単語を、内容に他の言語の単語を並べた辞書で、複数の言語が一度に引けるようになっている多言語辞書です。

実際にこれを作ってみるとわかりますが、見出し語はエスペラントでないとうまくいきません。中心語義がはっきりした単語でないと、見出しとして役立たず、徐々にずれた意味へと迷い込んでいく辞書ができあがるからです。この点、エスペラントは(接辞や語尾は多分に多義的である一方)一般の語彙の多義語はきわめて少なく抑制されており、この用途に適します。

Kajero はもちろんこの原理を応用しています。プログラムコードは Prolog で書かれたスクリプトで、核心コードはわずか15kBほどとなっています。

エスペラントが Ponta Lingvo として作動する Kajero は、言語をつなぐ機械のエスペランティストです。どうぞ自由に遊んでみてください。

2023年12月19日夜

2025年2月11日 改訂

(?) 【vortarojpが辞書を再発明するはなし】

Eksteraj fontoj

Babilejo

Kajero
Multlingva vortaro

Per
Cainia 双向推理系統 3.1

Programita de
Sato kaj Cainiao 2019-2025

Funkciigata de
SWI-Prolog