「LLM:Large Language Model(大規模言語モデル)」の版間の差分

提供:作業療法大百科事典OtWiki
50行目: 50行目:


==LLMを評価する==
==LLMを評価する==
== LLMの評価に関する整理 ==
LLM(大規模言語モデル)の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。


[https://zenn.dev/seya/articles/dd0010601b3136 LLMにまつわる"評価"を整理する]
[https://zenn.dev/seya/articles/dd0010601b3136 LLMにまつわる"評価"を整理する]

2024年6月6日 (木) 21:38時点における版


たくさんの言葉を学習したAI。見た目、人間ほど賢い。

概要

大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことである。[1]

注目すべきLLM

Snowflake Arctic[2]


rinna/llama-3-youko-8b · Hugging Face[3]

実用化

大体のAIサービスはLLMを用いたものになっている。

ChatGPT

OpenChat 大規模言語モデル(LLM)の利用を簡素化するオープンソースのチャットbotコンソール

OpenCopilot 企業がSaaSやWebアプリケーションなどの製品で、ユーザーを支援するカスタムAI(人工知能)コパイロットを提供するためのOSS(オープンソースソフトウェア)[4]

専門性の高いデータの読み解きをLLMでスケールさせよう | CyberAgent Developers Blog

日本語大規模モデル

日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan

ローカルLLM

ローカルLLMはこーやって使うの💢 · GitHub

Ollama + Open WebUI でローカルLLMを手軽に楽しむ

ELYZA[5]

僅か2.3GBで日本語可能な超高性能ローカルLLMのPhi-3 MINIをllama.cppとCPUで動かしてみた。スマホでも可。従来のコンパクトLLMと比較して超越した性能で未来を感じさせるMicroSoft寄付ありがとう - Togetter

【令和最新版】何もわからない人向けのローカル LLM 入門

LLMプロダクト開発とはどういうものなのか?|erukiti

ローカルLLM on iOS の現状まとめ


LLMを評価する

LLMの評価に関する整理

LLM(大規模言語モデル)の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。

LLMにまつわる"評価"を整理する

LLMでLLMを評価する

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

Webフレームワークとの組み合わせ

LLMをWebフレームワークにしたら、未来が見えた #2024

情報収集

LLM時代のX情報収集術|べいえりあ

資料

LLM勉強会

LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox

参照