「LLM：Large Language Model（大規模言語モデル）」の版間の差分

LLM（大規模言語モデル）の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。

LLMにまつわる"評価"を整理する

LLMでLLMを評価する

LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較

Webフレームワークとの組み合わせ

LLMをWebフレームワークにしたら、未来が見えた #2024

情報収集

LLM時代のX情報収集術｜べいえりあ

資料

LLM勉強会

LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox

参照

[1] ttps://atmarkit.itmedia.co.jp/ait/spv/2303/13/news013.html

[2] 無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場 - GIGAZINE

[3] MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開 - PC Watch

[4] 企業が自社アプリのAIコパイロットを提供できるOSS「OpenCopilot」公開：SaaSやWebアプリのAPIを呼び出してユーザーをサポート - ＠IT

[5] 【無料】ローカルPCで動く日本語LLM（ELYZA-japanese-Llama-2-7b-instruct）｜えんぞう

[1]

[2]

[3]

[4]

[5]

@@ 1行目: / 1行目: @@
-たくさんの言葉を学習したAI。見た目、人間ほど賢い。
+[[Category:ICT]][[Category:AI]]
+[[ファイル:LLMのイメージ.jpeg]]
+たくさんの言葉を学習した[[AI]]。見た目、人間ほど賢い。
 ==概要==
@@ 8行目: / 12行目: @@
 Snowflake Arctic<ref>[https://gigazine.net/news/20240426-arctic-open-efficient-foundation-language-models-snowflake/ 無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場 - GIGAZINE]</ref>
+[https://huggingface.co/rinna/llama-3-youko-8b　rinna/llama-3-youko-8b · Hugging Face]<ref>[https://pc.watch.impress.co.jp/docs/news/1589363.html MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開 - PC Watch]</ref>
 ==実用化==
@@ 18行目: / 25行目: @@
 OpenCopilot　企業がSaaSやWebアプリケーションなどの製品で、ユーザーを支援するカスタムAI（人工知能）コパイロットを提供するためのOSS（オープンソースソフトウェア）<ref>[https://atmarkit.itmedia.co.jp/ait/articles/2308/24/news061.html 企業が自社アプリのAIコパイロットを提供できるOSS「OpenCopilot」公開：SaaSやWebアプリのAPIを呼び出してユーザーをサポート - ＠IT]</ref>
+[https://developers.cyberagent.co.jp/blog/archives/47743/ 専門性の高いデータの読み解きをLLMでスケールさせよう | CyberAgent Developers Blog]
 ===日本語大規模モデル===
@@ 37行目: / 46行目: @@
 [https://note.com/erukiti/n/ne901fbb08145 LLMプロダクト開発とはどういうものなのか？｜erukiti]
-[https://zenn.dev/shu223/articles/localllm-ios ]
+[https://zenn.dev/shu223/articles/localllm-ios ローカルLLM on iOS の現状まとめ]
+==LLMを評価する==
+LLM（大規模言語モデル）の評価には、モデル自体の性能評価とプロダクト開発における品質保証の評価がある。モデル評価は精度や性能を測定し、複数のモデルを比較するためのベンチマークを用いる。一方、プロダクト開発における評価は、LLMシステムが要件を満たしているかを確認する品質保証の役割を果たす。オフライン評価とオンライン評価の違いを理解し、適切な評価戦略を立てることが重要である。
+[https://zenn.dev/seya/articles/dd0010601b3136 LLMにまつわる"評価"を整理する]
+===LLMでLLMを評価する===
+[https://zenn.dev/pharmax/articles/9b5fba24c252f3 LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較]
+==Webフレームワークとの組み合わせ==
+[https://zenn.dev/hanabi_rest/articles/29e66412422e01 LLMをWebフレームワークにしたら、未来が見えた #2024]
+==情報収集==
+[https://note.com/csstudyabroad/n/n86e9342818a0 LLM時代のX情報収集術｜べいえりあ]
 ==資料==
 [https://llm-jp.nii.ac.jp/resources/ LLM勉強会]
+[https://scrapbox.io/nishio/LLM%E3%82%92%E4%BD%BF%E3%81%84%E3%81%93%E3%81%AA%E3%81%99%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%8B%E3%82%A2%E3%81%AE%E7%9F%A5%E7%9A%84%E7%94%9F%E7%94%A3%E8%A1%93(%E8%AC%9B%E6%BC%94%E8%B3%87%E6%96%99) LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox]
 ==参照==
 <references />

匿名

検索

「LLM：Large Language Model（大規模言語モデル）」の版間の差分

名前空間

その他

ページ操作

2024年6月6日 (木) 21:40時点における最新版

目次

概要

注目すべきLLM

実用化

日本語大規模モデル

ローカルLLM

LLMを評価する

LLMでLLMを評価する

Webフレームワークとの組み合わせ

情報収集

資料

参照

案内

案内

ウィキツール

ウィキツール

匿名

検索

「LLM：Large Language Model（大規模言語モデル）」の版間の差分

2024年6月6日 (木) 21:40時点における最新版

概要

注目すべきLLM

実用化

日本語大規模モデル

ローカルLLM

LLMを評価する

LLMでLLMを評価する

Webフレームワークとの組み合わせ

情報収集

資料

参照

案内

ウィキツール

ページツール

カテゴリ