「LLM:Large Language Model(大規模言語モデル)」の版間の差分
51行目: | 51行目: | ||
==LLMを評価する== | ==LLMを評価する== | ||
LLM(大規模言語モデル)の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。 | LLM(大規模言語モデル)の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。 |
2024年6月6日 (木) 21:40時点における最新版
たくさんの言葉を学習したAI。見た目、人間ほど賢い。
概要
大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことである。[1]
注目すべきLLM
Snowflake Arctic[2]
rinna/llama-3-youko-8b · Hugging Face[3]
実用化
大体のAIサービスはLLMを用いたものになっている。
OpenChat 大規模言語モデル(LLM)の利用を簡素化するオープンソースのチャットbotコンソール
OpenCopilot 企業がSaaSやWebアプリケーションなどの製品で、ユーザーを支援するカスタムAI(人工知能)コパイロットを提供するためのOSS(オープンソースソフトウェア)[4]
専門性の高いデータの読み解きをLLMでスケールさせよう | CyberAgent Developers Blog
日本語大規模モデル
日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
ローカルLLM
Ollama + Open WebUI でローカルLLMを手軽に楽しむ
LLMプロダクト開発とはどういうものなのか?|erukiti
LLMを評価する
LLM(大規模言語モデル)の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。
LLMでLLMを評価する
LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較
Webフレームワークとの組み合わせ
LLMをWebフレームワークにしたら、未来が見えた #2024
情報収集
資料
LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox
参照
- ↑ https://atmarkit.itmedia.co.jp/ait/spv/2303/13/news013.html
- ↑ 無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場 - GIGAZINE
- ↑ MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開 - PC Watch
- ↑ 企業が自社アプリのAIコパイロットを提供できるOSS「OpenCopilot」公開:SaaSやWebアプリのAPIを呼び出してユーザーをサポート - @IT
- ↑ 【無料】ローカルPCで動く日本語LLM(ELYZA-japanese-Llama-2-7b-instruct)|えんぞう