本スライドは、2023年12月26日にSTORIA法律事務所主催で開催したオンラインセミナーのスライドです。
FAQシステムやチャットボットなど「何か知りたいこと(検索文・質問文)」を入力して検索や回答生成を行うに際して、検索や回答精度を向上させたり、回答根拠を明示させるために、LLM技術と外部データを組み合わせたシステムの研究開発や実装が急速に進んでいます。
ここでいう「外部データ」とは、「LLMの外部にあるデータ」という意味でして、その中には社内文書や、書籍・ウェブページ上のデータなどが含まれます。当該「外部データ」の中には、他人が著作権を持つ著作物(以下「既存著作物」といいます)も含まれるため、それら既存著作物を外部データとして利用する場合には、著作権侵害にならないよう注意をする必要があります。
そこで、本セミナーでは、LLM技術と外部データ活用による検索・回答精度向上のいくつかの手法(ファインチューニング、セマンティック検索、In-Context Learning、RAG)と著作権侵害についてお話をします。
以下が目次と各章の概要です。
第1 はじめに
第2 ファインチューニング
第3 セマンティック検索
第4 In-Context Learning
第5 RAG
第6 著作権侵害にならないシステム設計とは
第7 誰が著作権侵害の責任を負うのか
▼ 「第2 ファインチューニング」「第3 セマンティック検索」「第4 第4 In-Context Learning」「第5 RAG」
ファインチューニング(FT)やセマンティック検索、ICL、RAGと著作権侵害について解説
→セマンティック検索、ICL、RAGについては、それぞれ3つのパターンにわけて解説します。RAGは技術的には「セマンティック検索+ICL」なので、前の方の説明をよく聞いていただきたい。
▼ 「第6 著作権侵害にならないシステム設計とは」
著作権侵害の有無を決する分かれ目について解説。
▼ 「第7 誰が著作権侵害の責任を負うのか」
ユーザーがみずから自社システムとして構築する場合のみならず、サービサーが自社サービスとして、あるいは受託開発してRAGを提供する場合に誰が著作権侵害の責任を負うか解説。