DifyでつくるLLM-as-a-Judge

2.8K Views

July 19, 25

スライド概要

第2回 Dify Studio ハッカソンで発表された「DifyでつくるLLM-as-a-Judge」に関するプレゼンテーション資料です。

profile-image

東京工業大学 物質理工学院にて、機械学習と遺伝子工学を用いたウイルス材料の最適化研究を行う。 同大学院修了後、味の素株式会社に入社し、半導体向けの材料開発に携わり、 機械学習を用いた実験効率化をリードする。その後フリーランスエンジニアとして独立。 2023年2月に株式会社Omlucを設立。生成AIに関する事業を行っており、Difyの講座受講者数は2,300名以上。1,700名以上が参加するDifyコミュニティ「Dify Studio」コミュニティファウンダー。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

第2回 Dify Studio ハッカソン 【DifyでつくるLLM-as-a-Judge】

2.

⽬次 01 ⾃⼰紹介 02 Omlucについて 03 LLM-as-a-Judgeとは 04 Difyを利⽤したLLM-as-a-Judgeの実装 05 質疑応答 2

3.

⾃⼰紹介 TAKASHI KISHIDA CEO/ FOUNDER 東京⼯業⼤学 物質理⼯学院修了後、味の素株式会社に⼊社。 半導体向けの材料開発に携わり、機械学習を⽤いた実験効率化をリードする。 その後フリーランスエンジニアとして独⽴し、デザインやWeb開発に携わる。 2023年2⽉に株式会社Omlucを創業。Web開発事業や⽣成AI活⽤事業を⾏う。 Dify講座は累計2,300⼈以上が受講。 1,700名以上参加がするDifyコミュニティ「Dify Studio」ファウンダー。 3

4.

DifyでDeepResearch Dify公式ブログに寄稿 & Dify公式テンプレートとして登録されました

5.

LLM-as-a-Judgeとは︖ 5

6.

ハッカソン運営における課題 ハッカソン運営にあたり、参加者のアプリケーションを評価するための仕組みが必要

7.

AIを評価するとは︖ 例︓⾦融サービスのAIチャットボット 住宅ローンの⾦利について教えてください ⾦利は銀⾏によって異なります。 チャットボット ① 現在の変動⾦利は0.5%〜、固定⾦利は 1.2%〜となっており、お客様の条件によ り変動します。詳細は担当者がご説明いた します。 ユーザー チャットボット ② AIシステムが正しく動作しているか、期待通りの結果を出しているかを数値化して判断する必要 7

8.

AI評価の課題 ü 従来の⼈間による評価 テストケース チャットボット 出⼒ ⼈間の評価者 テストケースが膨⼤になると、評価者のリソースや評価のブレなどが課題 評価基準 8

9.

LLM-as-a-Judgeとは︖ ü LLM-as-a-Judgeによる評価 テストケース チャットボット 出⼒ LLM-as-a-Judge LLM-as-a-Judgeでは、⼈間の評価者の代わりにAIが他のAIの出⼒を評価するため、 コストパフォーマンスやスケーラビリティに優れる 評価基準 9

10.

LLM-as-a-Judgeのしくみ 評価対象と評価基準をLLMに⼊れることで、スコアと判断理由を説明

11.

LLM-as-a-Judgeにおける評価指標 内容の正確性だけでなく、安全性や表現の合致、タスクの遵守などの様々な評価指標

12.

G-Evalを利⽤したLLM-as-a-Judge ⾃然⾔語で書かれた評価基準を構造化された評価ステップに変換し、 以下の3段階のプロセスで評価を⾏います 1. 評価ステップの⽣成 ⾃然⾔語の基準をLLMが構造化された 評価ステップのリストに変換 2. 審査 これらのステップを使⽤してLLMが アプリケーションの出⼒を評価 3. スコアリング 判定結果を対数確率で重み付けして 最終的なG-Evalスコアを算出 Liu et al. , 2023 G-EVAL: NLGEvaluation using GPT-4 with Better Human Alignment G-Evalは、チェーン・オブ・ソート(CoT)を使⽤したLLM-as-a-Judgeフレームワークで、 基準に基づいてLLMの出⼒を評価

13.

G-Evalのしくみと例 CoTを利⽤してLLMが評価⼿順を⾃動⽣成するため、評価の⼀貫性を保つことができる

14.

Difyを利⽤したLLM-as-a-Judge 14

15.

アーキテクチャ 遠隔で作成したアプリケーションを評価する仕組みが必要

16.

Difyを利⽤したLLM-as-a-Judgeの実装 DifyのAPIキーを⼊⼒するだけで、チャットボットを並列で評価可能なワークフロー

17.

おわりに 17

18.

We are hiring ! 私たちは⼀緒に働く仲間を募集しています︕ HPまたはXのDMよりご連絡いただけると嬉しいです︕ コーポレートサイト Xアカウント 18

19.

Thank you︕