「LLM：Large Language Model（大規模言語モデル）」の版間の差分

LLM（大規模言語モデル）の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。

LLMにまつわる"評価"を整理する

LLMでLLMを評価する

LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較

Webフレームワークとの組み合わせ

LLMをWebフレームワークにしたら、未来が見えた #2024

情報収集

LLM時代のX情報収集術｜べいえりあ

資料

LLM勉強会

LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox

参照

[1] ttps://atmarkit.itmedia.co.jp/ait/spv/2303/13/news013.html

[2] 無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場 - GIGAZINE

[3] MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開 - PC Watch

[4] 企業が自社アプリのAIコパイロットを提供できるOSS「OpenCopilot」公開：SaaSやWebアプリのAPIを呼び出してユーザーをサポート - ＠IT

[5] 【無料】ローカルPCで動く日本語LLM（ELYZA-japanese-Llama-2-7b-instruct）｜えんぞう

[1]

[2]

[3]

[4]

[5]

@@ 51行目: / 51行目: @@
 ==LLMを評価する==
-== LLMの評価に関する整理 ==
 LLM（大規模言語モデル）の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。

匿名

検索

「LLM：Large Language Model（大規模言語モデル）」の版間の差分

名前空間

その他

ページ操作

2024年6月6日 (木) 21:40時点における最新版

目次

概要

注目すべきLLM

実用化

日本語大規模モデル

ローカルLLM

LLMを評価する

LLMでLLMを評価する

Webフレームワークとの組み合わせ

情報収集

資料

参照

案内

案内

ウィキツール

ウィキツール

匿名

検索

「LLM：Large Language Model（大規模言語モデル）」の版間の差分

2024年6月6日 (木) 21:40時点における最新版

概要

注目すべきLLM

実用化

日本語大規模モデル

ローカルLLM

LLMを評価する

LLMでLLMを評価する

Webフレームワークとの組み合わせ

情報収集

資料

参照

案内

ウィキツール

ページツール

カテゴリ