「こういう感じの画像を作って」と伝えても 良いし、元となる画像を⽤意して加⼯させる のも可 指⽰に応じた動画をAIが⽣成。 「こういう感じの動画を作って」も可、 元動画を⽤意して変換させるのも可 ⾳楽に欲しい要素を指⽰するとAIが⽣成。 テンポやコードなどの具体的指⽰も良いし、 「明るくて華やかな感じ」なども可 元となる⼈の⾳声をアップロードし、 次にテキストを打ち込むと、 その⼈の声で読み上げをする 例) Midjourney (同), Stable Diffusion (Stability AI) 例) Gen-2 (Runway), Phenaki (Google) 例) Jukebox (OpenAI), Music Gen (Meta) 例) VALL-E (Microsoft), Voicebox (Meta) ChatGPTは元々、上記の並びの⼀つである「テキストの⽣成」に属するAI。 この「テキスト⽣成系のAI」モデルのことを⼤規模⾔語モデル(LLM)と総称する