DifyでつくるLLM-as-a-Judge

4.8K Views

July 19, 25

スライド概要

第2回 Dify Studio ハッカソンで発表された「DifyでつくるLLM-as-a-Judge」に関するプレゼンテーション資料です。

岸田崇史

スライド一覧

東京工業大学物質理工学院にて、機械学習と遺伝子工学を用いたウイルス材料の最適化研究を行う。同大学院修了後、味の素株式会社に入社し、半導体向けの材料開発に携わり、機械学習を用いた実験効率化をリードする。その後フリーランスエンジニアとして独立。 2023年2月に株式会社Omlucを設立。生成AIに関する事業を行っており、Difyの講座受講者数は2,300名以上。1,700名以上が参加するDifyコミュニティ「Dify Studio」コミュニティファウンダー。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

コミュニティで実現する共創型AI推進: Dify Studioの実践事例

岸田崇史 3.5K

コミュニティで実現する共創型AI推進: Dify Studioの実践事例

岸田崇史 356

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.1M

各ページのテキスト

第2回 Dify Studio ハッカソン【DifyでつくるLLM-as-a-Judge】

⽬次 01 ⾃⼰紹介 02 Omlucについて 03 LLM-as-a-Judgeとは 04 Difyを利⽤したLLM-as-a-Judgeの実装 05 質疑応答 2

⾃⼰紹介 TAKASHI KISHIDA CEO/ FOUNDER 東京⼯業⼤学物質理⼯学院修了後、味の素株式会社に⼊社。半導体向けの材料開発に携わり、機械学習を⽤いた実験効率化をリードする。その後フリーランスエンジニアとして独⽴し、デザインやWeb開発に携わる。 2023年2⽉に株式会社Omlucを創業。Web開発事業や⽣成AI活⽤事業を⾏う。 Dify講座は累計2,300⼈以上が受講。 1,700名以上参加がするDifyコミュニティ「Dify Studio」ファウンダー。 3

DifyでDeepResearch Dify公式ブログに寄稿 & Dify公式テンプレートとして登録されました

LLM-as-a-Judgeとは︖ 5

ハッカソン運営における課題ハッカソン運営にあたり、参加者のアプリケーションを評価するための仕組みが必要

AIを評価するとは︖ 例︓⾦融サービスのAIチャットボット住宅ローンの⾦利について教えてください⾦利は銀⾏によって異なります。チャットボット ① 現在の変動⾦利は0.5%〜、固定⾦利は 1.2%〜となっており、お客様の条件により変動します。詳細は担当者がご説明いたします。ユーザーチャットボット ② AIシステムが正しく動作しているか、期待通りの結果を出しているかを数値化して判断する必要 7

AI評価の課題 ü 従来の⼈間による評価テストケースチャットボット出⼒⼈間の評価者テストケースが膨⼤になると、評価者のリソースや評価のブレなどが課題評価基準 8

LLM-as-a-Judgeとは︖ ü LLM-as-a-Judgeによる評価テストケースチャットボット出⼒ LLM-as-a-Judge LLM-as-a-Judgeでは、⼈間の評価者の代わりにAIが他のAIの出⼒を評価するため、コストパフォーマンスやスケーラビリティに優れる評価基準 9

10.

LLM-as-a-Judgeのしくみ評価対象と評価基準をLLMに⼊れることで、スコアと判断理由を説明

11.

LLM-as-a-Judgeにおける評価指標内容の正確性だけでなく、安全性や表現の合致、タスクの遵守などの様々な評価指標

12.

G-Evalを利⽤したLLM-as-a-Judge ⾃然⾔語で書かれた評価基準を構造化された評価ステップに変換し、以下の3段階のプロセスで評価を⾏います 1. 評価ステップの⽣成⾃然⾔語の基準をLLMが構造化された評価ステップのリストに変換 2. 審査これらのステップを使⽤してLLMがアプリケーションの出⼒を評価 3. スコアリング判定結果を対数確率で重み付けして最終的なG-Evalスコアを算出 Liu et al. , 2023 G-EVAL: NLGEvaluation using GPT-4 with Better Human Alignment G-Evalは、チェーン・オブ・ソート（CoT）を使⽤したLLM-as-a-Judgeフレームワークで、基準に基づいてLLMの出⼒を評価

13.

G-Evalのしくみと例 CoTを利⽤してLLMが評価⼿順を⾃動⽣成するため、評価の⼀貫性を保つことができる

14.

Difyを利⽤したLLM-as-a-Judge 14

15.

アーキテクチャ遠隔で作成したアプリケーションを評価する仕組みが必要

16.

Difyを利⽤したLLM-as-a-Judgeの実装 DifyのAPIキーを⼊⼒するだけで、チャットボットを並列で評価可能なワークフロー

17.

おわりに 17

18.

We are hiring ! 私たちは⼀緒に働く仲間を募集しています︕ HPまたはXのDMよりご連絡いただけると嬉しいです︕ コーポレートサイト Xアカウント 18

19.

Thank you︕