2.8K Views
July 19, 25
スライド概要
第2回 Dify Studio ハッカソンで発表された「DifyでつくるLLM-as-a-Judge」に関するプレゼンテーション資料です。
第2回 Dify Studio ハッカソン 【DifyでつくるLLM-as-a-Judge】
⽬次 01 ⾃⼰紹介 02 Omlucについて 03 LLM-as-a-Judgeとは 04 Difyを利⽤したLLM-as-a-Judgeの実装 05 質疑応答 2
⾃⼰紹介 TAKASHI KISHIDA CEO/ FOUNDER 東京⼯業⼤学 物質理⼯学院修了後、味の素株式会社に⼊社。 半導体向けの材料開発に携わり、機械学習を⽤いた実験効率化をリードする。 その後フリーランスエンジニアとして独⽴し、デザインやWeb開発に携わる。 2023年2⽉に株式会社Omlucを創業。Web開発事業や⽣成AI活⽤事業を⾏う。 Dify講座は累計2,300⼈以上が受講。 1,700名以上参加がするDifyコミュニティ「Dify Studio」ファウンダー。 3
DifyでDeepResearch Dify公式ブログに寄稿 & Dify公式テンプレートとして登録されました
LLM-as-a-Judgeとは︖ 5
ハッカソン運営における課題 ハッカソン運営にあたり、参加者のアプリケーションを評価するための仕組みが必要
AIを評価するとは︖ 例︓⾦融サービスのAIチャットボット 住宅ローンの⾦利について教えてください ⾦利は銀⾏によって異なります。 チャットボット ① 現在の変動⾦利は0.5%〜、固定⾦利は 1.2%〜となっており、お客様の条件によ り変動します。詳細は担当者がご説明いた します。 ユーザー チャットボット ② AIシステムが正しく動作しているか、期待通りの結果を出しているかを数値化して判断する必要 7
AI評価の課題 ü 従来の⼈間による評価 テストケース チャットボット 出⼒ ⼈間の評価者 テストケースが膨⼤になると、評価者のリソースや評価のブレなどが課題 評価基準 8
LLM-as-a-Judgeとは︖ ü LLM-as-a-Judgeによる評価 テストケース チャットボット 出⼒ LLM-as-a-Judge LLM-as-a-Judgeでは、⼈間の評価者の代わりにAIが他のAIの出⼒を評価するため、 コストパフォーマンスやスケーラビリティに優れる 評価基準 9
LLM-as-a-Judgeのしくみ 評価対象と評価基準をLLMに⼊れることで、スコアと判断理由を説明
LLM-as-a-Judgeにおける評価指標 内容の正確性だけでなく、安全性や表現の合致、タスクの遵守などの様々な評価指標
G-Evalを利⽤したLLM-as-a-Judge ⾃然⾔語で書かれた評価基準を構造化された評価ステップに変換し、 以下の3段階のプロセスで評価を⾏います 1. 評価ステップの⽣成 ⾃然⾔語の基準をLLMが構造化された 評価ステップのリストに変換 2. 審査 これらのステップを使⽤してLLMが アプリケーションの出⼒を評価 3. スコアリング 判定結果を対数確率で重み付けして 最終的なG-Evalスコアを算出 Liu et al. , 2023 G-EVAL: NLGEvaluation using GPT-4 with Better Human Alignment G-Evalは、チェーン・オブ・ソート(CoT)を使⽤したLLM-as-a-Judgeフレームワークで、 基準に基づいてLLMの出⼒を評価
G-Evalのしくみと例 CoTを利⽤してLLMが評価⼿順を⾃動⽣成するため、評価の⼀貫性を保つことができる
Difyを利⽤したLLM-as-a-Judge 14
アーキテクチャ 遠隔で作成したアプリケーションを評価する仕組みが必要
Difyを利⽤したLLM-as-a-Judgeの実装 DifyのAPIキーを⼊⼒するだけで、チャットボットを並列で評価可能なワークフロー
おわりに 17
We are hiring ! 私たちは⼀緒に働く仲間を募集しています︕ HPまたはXのDMよりご連絡いただけると嬉しいです︕ コーポレートサイト Xアカウント 18
Thank you︕