DeepLが次世代LLMモデルの翻訳を発表したことが話題になっています。https://www.deepl.com/ja/blog/next-gen-language-model
ChatGPTやGemini、ClaudeといったLLMでも翻訳ができ、それなりの精度でしたが、それらを上回るサービスということで注目が集まっています。従来のLLMだと、「インターネット上の公開情報を学習する汎用モデル」だったのに対して、DeepLの次世代LLMモデルは「翻訳や校正といった言語分野向けにチューニングされている」ためより人による翻訳に近い訳文がアウトプットされるそうです。
上記公式ドキュメントを見ていきましょう。
公式ドキュメントの概要 1. DeepLの次世代言語モデルとはDeepL独自の画期的な大規模言語モデル(LLM)です。高品質な訓練データとAI技術を組み合わせ、より自然で正確な翻訳を実現します。翻訳の質を新たなレベルに引き上げることを目的としています。
2. 従来のモデルとの違い翻訳の質が大幅に向上必要な編集量が減少し、生産性が向上偽情報や誤情報のリスクが軽減DeepL Proと同等のセキュリティとプライバシーを確保
3. トレーニングデータについて7年分以上の独自データを使用し、翻訳とコンテンツ作成に特化してトレーニングされています。インターネット上の公開情報を学習する汎用モデルとは異なり、高品質な翻訳提供に重点を置いています。
4. 翻訳品質の向上プロの翻訳者によるブラインドテストで、Google翻訳、ChatGPT-4、Microsoftを上回る評価従来のDeepL翻訳と比較して、日本語、中国語、ドイツ語で1.4倍から1.7倍の品質向上
5. セキュリティ対策DeepL Proと同等の高いセキュリティ基準専有データセンターの使用高水準の認証とコンプライアンス基準(ISO 27001認証、GDPR準拠、SOC 2 Type 2レポートなど)
6. 対応言語現在対応している言語ペア:日本語⇔英語ドイツ語⇔英語中国語(簡体字)⇔英語今後、対応言語は順次拡大予定。
7. 利用方法DeepL Proユーザーは、翻訳設定画面でボタンひとつで次世代言語モデルに切り替え可能。
8. DeepL Pro未利用者の場合DeepL Proプランにアップグレードすることで、次世代言語モデルを含むすべての機能を利用可能。
使い方現状、Web版のみ次世代LLMが利用可能なようです。また、Pro版(有料版)のみ利用可能なようです。まずは、DeepLのサイトにアクセスしてログインします。https://www.deepl.com/ja/translator
翻訳したい文を入力してみましょう。すると下記のように「言語モデル」が選択できるようになります。「次世代言語モデル」をクリックして選択しましょう。
翻訳してみる!(次世代言語モデル、クラシック(従来))下記のOpen AIが発表したインストラクションヒエラルキーの論文の冒頭を翻訳してみましょう。https://arxiv.org/pdf/2404.13208
翻訳前の英文翻訳前(英文)Today’s LLMs are susceptible to prompt injections, jailbreaks, and otherattacks that allow adversaries to overwrite a model’s original instructionswith their own malicious prompts. In this work, we argue that one of theprimary vulnerabilities underlying these attacks is that LLMs often considersystem prompts (e.g., text from an application developer) to be the samepriority as text from untrusted users and third parties. To address this, wepropose an instruction hierarchy that explicitly defines how models shouldbehave when instructions of different priorities conflict. We then proposean automated data generation method to demonstrate this hierarchicalinstruction following behavior, which teaches LLMs to selectively ignorelower-privileged instructions. We apply this method to LLMs, showing thatit drastically increases robustness—even for attack types not seen duringtraining—while imposing minimal degradations on standard capabilities. 翻訳結果(クラシック(従来))クラシック(従来)今日のLLMは、プロンプト・インジェクション、ジェイルブレイク、その他の攻撃の影響を受けやすい。敵がモデルの元の命令を独自の悪意のあるプロンプトで上書きすることを可能にする攻撃の影響を受けやすい。本研究では、これらの攻撃の根底にある主要な脆弱性の1つはこれらの攻撃の根底にある主要な脆弱性の一つは、LLMがしばしばシステムプロンプト(例えばシステムのプロンプト(例えば、アプリケーション開発者からのテキスト)は、信頼できないユーザーからのテキストと同じ優先順位である。優先順位が、信頼できないユーザーや第三者からのテキストと同じであることである。これに対処するため、我々はモデルがどのように振る舞うべきかを明示的に定義する命令階層を提案する。を明示的に定義する命令階層を提案する。そして自動データ生成法を提案する。LLMが優先順位の低い命令を選択的に無視することを教えます。優先順位の低い命令を選択的に無視するようにLLMに教える。この方法をLLMに適用し、以下のことを示す。この方法をLLMに適用することで、ロバスト性が劇的に向上することを示す。この方法をLLMに適用することで、標準的な機能の劣化を最小限に抑えながら、訓練時には見られなかった攻撃タイプに対しても堅牢性が飛躍的に向上することを示す。 翻訳結果(次世代言語モデル)次世代言語モデル現在の LLM は、即時の注入、脱獄、その他の攻撃に弱く、攻撃者がモデルの本来の命令を、自身の悪意のある命令で上書きすることを可能にしています。この研究では、これらの攻撃の根本にある主な脆弱性の 1 つとして、LLM がシステムからの命令(例えば、アプリケーション開発者からのテキスト)を、信頼できないユーザーや第三者からのテキストと同じ優先度であるとみなすことが多いことを指摘しています。これに対処するために、私たちは、異なる優先度の命令が衝突した場合にモデルがどのように動作すべきかを明示的に定義する命令階層を提案します。次に、この階層的な命令に従う動作を実証する自動データ生成方法を提案します。これにより、LLMはより特権度の低い命令を無視するようになります。この方法をLLMに適用し、トレーニング中に見られなかった攻撃タイプに対しても、標準的な機能への影響を最小限に抑えながら、堅牢性が大幅に強化されることを示します。 所感「プロンプト・インジェクション、ジェイルブレイク」のところが次世代言語モデルだと「即時の注入、脱獄」と無理やり日本語に訳されていてわかりづらくなっています。一方で他の箇所はクラシックより次世代言語モデルの方が頭にすっと入ってきやすい印象でした。
翻訳結果の比較・評価をClaudeに聞いてみるClaude 3.5 Sonnetにそれぞれ翻訳結果を入力して比較・評価してもらいました。結果は、下記となります。Claude 3.5 Sonnetの次世代言語モデルの評価は上々でした!
正確性:次世代言語モデルの翻訳の方が、より正確で原文の意味をよく捉えています。例えば、"prompt injection"を「プロンプト・インジェクション」ではなく「即時の注入」と訳していますが、これはより適切な表現です。また、"jailbreak"を「ジェイルブレイク」ではなく「脱獄」と訳しており、これも日本語としてより自然です。
一貫性:次世代モデルの翻訳は、用語の使用がより一貫しています。例えば、"LLM"という略語を一貫して使用しています。
流暢さ:次世代モデルの翻訳の方が、より自然で流暢な日本語になっています。文章の構造がより明確で、読みやすくなっています。
専門用語の扱い:次世代モデルは専門用語をより適切に扱っています。例えば、"instruction hierarchy"を「命令階層」と訳しており、これは技術的な文脈において適切です。
ニュアンスの伝達:次世代モデルの翻訳は、原文のニュアンスをより正確に伝えています。例えば、"dramatically improve robustness"を「堅牢性が大幅に強化される」と訳しており、原文の強調を適切に反映しています。
文章構造:次世代モデルの翻訳は、原文の段落構造をより忠実に再現しており、論理の流れが分かりやすくなっています。
総合評価:次世代言語モデルの翻訳の方が明らかに優れています。より正確で、自然な日本語表現を用いており、原文の意図とニュアンスをより適切に伝えています。専門的な内容を扱う際の用語の選択も適切で、全体的な読みやすさも向上しています。クラシックモデルの翻訳と比較すると、次世代モデルは翻訳の質を大きく向上させていると言えます
さいごに私自身、翻訳はChatGPT等のLLMを使うケースが多かったです。今回のDeepLの発表を踏まえて、DeepLを活用してみようと思います。この記事が、みなさまの日々の業務や生活がよりよくなる一助になれば幸いです。またなにか気づいたことがありましたら