GPT-4o with iOS

GPT-4o with iOS ϚϧνʔϞʔμϧAPIʹඋ͑Δ అ मҰ ʢ@shu223ʣ

ࣗݾ঺հ • అ मҰ • @shu223 (GitHub, Zenn, Qiita, note,
Docswell, 𝕏, YouTube, Podcast, etc...) • ॻ੶ʢ঎ۀग़൛4࡭ɺݸਓग़൛ଟ਺ @BOOTHʣ:

2024.5.13 GPT-4oൃද Hello GPT-4o | OpenAI 1ߦ໨ɿ We’re announcing GPT-4o,
our new flagship model that can reason across audio, vision, and text in real time. ʮϚϧνϞʔμϧʯ͕؊

GPT-4oͷϞμϦςΟ GPT-4o (“o” for “omni”) is a step towards much
more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. • ೖྗɿ ςΩετɾԻ੠ɾը૾ɾಈըͷ͋ΒΏΔ૊Έ߹Θͤ • ग़ྗɿ ςΩετɾԻ੠ɾը૾ͷ͋ΒΏΔ૊Έ߹Θͤ

End-to-end With GPT-4o, we trained a single new model end-to-
end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Ի੠ → [Whisper] → ςΩετ → [GPT] → ςΩετ → [TTS] → Ի੠ ⇓ Ի੠ → [GPT] → Ի੠

ʮϚϧνϞʔμϧίϛϡχέʔγϣ ϯʯͷओઓ৔ͱ͍͑͹ɾɾɾ

εϚϗ • ͍ͭͰ΋Ͳ͜Ͱ΋࢖͑Δ • ΈΜͳ࣋ͬͯΔ • ϚΠΫɾΧϝϥ׬උ • ʢςΩετೖྗΊΜͲ͍͘͞ʣ

ຊൃදͷςʔϚɿ ϞόΠϧΞϓϦ ⇔ GPT ͷϚϧνϞʔμϧίϛϡχέʔγϣϯʹඋ͑Α͏

΋͏API͸ରԠ͍ͯ͠Δͷ͔ʁ

Chat Completion APIରԠঢ়گ ϞσϧʹGPT-4oΛࢦఆՄೳ add gpt-4o model (#1417) · openai/openai-python

֤छϞμϦςΟͷAPIରԠঢ়گ ϞμϦςΟ ೖྗ ग़ྗ ςΩετ ◯ ◯ ը૾ ◯ ✕
ಈը △ʢޙड़ʣ - Ի੠ ✕ ✕

Chat Completion APIʹը૾ɾಈըΛ౤͛Δ API Reference - OpenAI API • ը૾ɿ
"image_url" ʹը૾σʔλ΍URLΛೖΕΔ • ಈըɿ ϑϨʔϜը૾Λෳ਺ೖΕΔ "content": [ { "type": "image_url", "image_url": ... } ]

ಈըཧղ͸Մೳ͕ͩɺಈըͱ͍͏ϞμϦςΟʹ ׬શʹରԠ͍ͯ͠Δͱ͸ݴ͍೉͍ To-Be: ಈը → [GPT] → ग़ྗ As-Is: ಈը
→ ෳ਺ͷը૾ → [GPT] → ग़ྗ

ʢิ଍ʣಈըΛෳ਺ը૾ʹ෼ղͯ͠ૹΔํ๏ͷ໰୊఺ • End-to-endͰֶश͞ΕͨGPT-4oͷϞμϦςΟΛ׆͔͍ͤͯͳ ͍ • ΫϥΠΞϯταΠυͰಈըͷσίʔυॲཧͷΦʔόʔϔου • ಈըϑΥʔϚοτΛσίʔυͯ͠ૹΔͨΊσʔλྔ΋૿͑Δ • Ի੠৘ใ΋࢖༻͞Εͳ͍

ʢิ଍ʣOpenAI APIͷVisionػೳʹ͍ͭͯ • GPT-4 Turbo with VisionϞσϧ͕ϦϦʔε͞Εͨ2023೥ 11݄ʹAPI͕௥Ճ • ಉ݄ɺOpenAIͷAPIυΩϡϝϯτʹVisionػೳͷ࢖͍ํ͕௥
Ճ • ಈըΛݸʑͷϑϨʔϜը૾ʹ෼ׂͯ͠Ϟσϧʹೖྗ͢Δ͜ͱ Ͱಈըͷ಺༰ཧղ͕Ͱ͖Δͱઆ໌͞Ε͍ͯΔ → ͭ·Γ͜ͷ΁Μ͸GPT-4oͷ৽ػೳͰ͸ͳ͍

GPT-4oͷϚϧνϞʔμϧೖྗΛiOS͔ Βࢼ͢

σϞ - iOS×GPT-4oͰϦΞϧλΠϜ ಈըཧղ

iOSͰ࢖͑ΔOpenAI APIΫϥΠΞϯτ ͍Ζ͍Ζ͋Δ ͕ɺݱஈ֊Ͱ͸ MacPaw/OpenAI ͰΑͦ͞͏ • ελʔ਺͕΋ͬͱ΋ଟ͍ʢ㲈ར༻࣮੷ʣ • ௚ۙͰ΋ϝϯς͞Ε͍ͯΔ
• ґଘϥΠϒϥϦͳ͠ • ετϦʔϛϯάAPIɺը૾ੜ੒ɺTTS౳΋αϙʔτ

MacPaw/OpenAI ͸ Vision API Λαϙʔτ ͍ͯ͠Δͷ͔ʁ READMEʹ͸Կ΋ॻ͍ͯͳ͍͕ɺιʔείʔυΛಡΉͱ࣮͸αϙʔ τ͍ͯ͠Δ 1 1
ௐࠪͷৄࡉɿ MacPaw/OpenAI ͸ϚϧνϞʔμϧೖྗʹରԠ͍ͯ͠Δͷ͔

iOS×GPT-4oͰը૾ཧղ • ϓϩϯϓτɿ "What's in this image?" • ʢίʔυ͸ެ։༧ఆʣ

iOS×GPT-4oͰಈըͷཁ໿ • ϓϩϯϓτɿ"ಈըͷཁ໿Λఏڙͯ͘͠ ͍ͩ͞ɻ" • 60sͷಈը͔Β2ඵ͓͖ʹϑϨʔϜநग़ ʗ௕ล768pxʹͳΔΑ͏ϦαΠζ 2 • ʢίʔυ͸ެ։༧ఆʣ
2 ؔ࿈هࣄɿ GPTʹΑΔಈըཧղͷOpenAIެࣜΨΠυΛಡΉ

iOS×GPT-4oͰϦΞϧλΠϜ ಈըཧղ • "detail" ͸ "low" Λࢦఆ • 512x512ʹϦαΠζ&Ϋϩοϓ •
લϑϨʔϜͷઆ໌ςΩετ΋ಉࠝ • ฒྻԽ͸·ͩ • ʢίʔυ͸ެ։༧ఆʣ

ετϦʔϛϯάೖग़ྗʹඋ͑Δ ϞμϦςΟ ೖྗ ग़ྗ ςΩετ ◯ ◯ ը૾ ◯ ✕
ಈը ͜͜ - Ի੠ ͜͜ ͜͜

͜ͷ΁ΜΛώϯτʹඋ͓͑ͯ͘ͱΑͦ͞͏ʁ • Whisper APIɾɾɾԻ੠ೖྗAPI • TTS APIɾɾɾԻ੠ग़ྗAPI

Whisper APIʢԻ੠ೖྗʣ • ετϦʔϛϯάೖྗ͸αϙʔτͯ͠ͳ͍ • ʮԻ੠ΛνϟϯΫ͝ͱʹૹΔʯํࣜͰετϦʔϛϯάΛ࣮ݱ͠ ͍ͯΔαʔυύʔςΟʔ࣮૷͸͍Ζ͍Ζ͋Δ

TTS APIʢԻ੠ग़ྗʣ • ετϦʔϛϯάग़ྗΛαϙʔτ͍ͯ͠Δ • υΩϡϝϯτɿ Text to speech -
OpenAI API • Python࣮૷ • ࢒೦ͳ͕Β MacPaw/OpenAI Ͱ͸ετϦʔϜग़ྗ͸αϙʔτ ͍ͯ͠ͳ͔ͬͨʢιʔεಡΜͰ֬ೝʣ • ʢContributionνϟϯεʂʣ

৽APIͷϦϦʔεʹؾ෇͘ʹ͸ ެࣜPythonϥΠϒϥϦͷreleaseΛwatch͢Δ https://github.com/openai/openai-python/releases

·ͱΊ • GPT-4oͷʮϚϧνϞʔμϧʯ͸εϚϗͰେ׆༂ͦ͠͏ • OpenAI APIͷݱࡏͷରԠঢ়گ • iOSͰͷʮGPT-4oΛ༻͍ͨը૾ཧղɾಈըཧղʯͷ࣮૷ • ετϦʔϛϯάೖग़ྗରԠʹඋ͑Α͏

͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ

GPT-4o with iOS

GPT-4o with iOS

shu223

More Decks by shu223

Other Decks in Programming

Featured

Transcript

GPT-4o with iOS ϚϧνʔϞʔμϧAPIʹඋ͑Δ అ मҰ ʢ@shu223ʣ

ࣗݾ঺հ • అ मҰ • @shu223 (GitHub, Zenn, Qiita, note,

2024.5.13 GPT-4oൃද Hello GPT-4o | OpenAI 1ߦ໨ɿ We’re announcing GPT-4o,

GPT-4oͷϞμϦςΟ GPT-4o (“o” for “omni”) is a step towards much

End-to-end With GPT-4o, we trained a single new model end-to-

ʮϚϧνϞʔμϧίϛϡχέʔγϣ ϯʯͷओઓ৔ͱ͍͑͹ɾɾɾ

εϚϗ • ͍ͭͰ΋Ͳ͜Ͱ΋࢖͑Δ • ΈΜͳ࣋ͬͯΔ • ϚΠΫɾΧϝϥ׬උ • ʢςΩετೖྗΊΜͲ͍͘͞ʣ

ຊൃදͷςʔϚɿ ϞόΠϧΞϓϦ ⇔ GPT ͷϚϧνϞʔμϧίϛϡχέʔγϣϯʹඋ͑Α͏

΋͏API͸ରԠ͍ͯ͠Δͷ͔ʁ

Chat Completion APIରԠঢ়گ ϞσϧʹGPT-4oΛࢦఆՄೳ add gpt-4o model (#1417) · openai/openai-python

֤छϞμϦςΟͷAPIରԠঢ়گ ϞμϦςΟ ೖྗ ग़ྗ ςΩετ ◯ ◯ ը૾ ◯ ✕

Chat Completion APIʹը૾ɾಈըΛ౤͛Δ API Reference - OpenAI API • ը૾ɿ

ಈըཧղ͸Մೳ͕ͩɺಈըͱ͍͏ϞμϦςΟʹ ׬શʹରԠ͍ͯ͠Δͱ͸ݴ͍೉͍ To-Be: ಈը → [GPT] → ग़ྗ As-Is: ಈը

ʢิ଍ʣಈըΛෳ਺ը૾ʹ෼ղͯ͠ૹΔํ๏ͷ໰୊఺ • End-to-endͰֶश͞ΕͨGPT-4oͷϞμϦςΟΛ׆͔͍ͤͯͳ ͍ • ΫϥΠΞϯταΠυͰಈըͷσίʔυॲཧͷΦʔόʔϔου • ಈըϑΥʔϚοτΛσίʔυͯ͠ૹΔͨΊσʔλྔ΋૿͑Δ • Ի੠৘ใ΋࢖༻͞Εͳ͍

ʢิ଍ʣOpenAI APIͷVisionػೳʹ͍ͭͯ • GPT-4 Turbo with VisionϞσϧ͕ϦϦʔε͞Εͨ2023೥ 11݄ʹAPI͕௥Ճ • ಉ݄ɺOpenAIͷAPIυΩϡϝϯτʹVisionػೳͷ࢖͍ํ͕௥

GPT-4oͷϚϧνϞʔμϧೖྗΛiOS͔ Βࢼ͢

σϞ - iOS×GPT-4oͰϦΞϧλΠϜ ಈըཧղ

iOSͰ࢖͑ΔOpenAI APIΫϥΠΞϯτ ͍Ζ͍Ζ͋Δ ͕ɺݱஈ֊Ͱ͸ MacPaw/OpenAI ͰΑͦ͞͏ • ελʔ਺͕΋ͬͱ΋ଟ͍ʢ㲈ར༻࣮੷ʣ • ௚ۙͰ΋ϝϯς͞Ε͍ͯΔ

MacPaw/OpenAI ͸ Vision API Λαϙʔτ ͍ͯ͠Δͷ͔ʁ READMEʹ͸Կ΋ॻ͍ͯͳ͍͕ɺιʔείʔυΛಡΉͱ࣮͸αϙʔ τ͍ͯ͠Δ 1 1

iOS×GPT-4oͰը૾ཧղ • ϓϩϯϓτɿ "What's in this image?" • ʢίʔυ͸ެ։༧ఆʣ

iOS×GPT-4oͰಈըͷཁ໿ • ϓϩϯϓτɿ"ಈըͷཁ໿Λఏڙͯ͘͠ ͍ͩ͞ɻ" • 60sͷಈը͔Β2ඵ͓͖ʹϑϨʔϜநग़ ʗ௕ล768pxʹͳΔΑ͏ϦαΠζ 2 • ʢίʔυ͸ެ։༧ఆʣ

iOS×GPT-4oͰϦΞϧλΠϜ ಈըཧղ • "detail" ͸ "low" Λࢦఆ • 512x512ʹϦαΠζ&Ϋϩοϓ •

ετϦʔϛϯάೖग़ྗʹඋ͑Δ ϞμϦςΟ ೖྗ ग़ྗ ςΩετ ◯ ◯ ը૾ ◯ ✕

͜ͷ΁ΜΛώϯτʹඋ͓͑ͯ͘ͱΑͦ͞͏ʁ • Whisper APIɾɾɾԻ੠ೖྗAPI • TTS APIɾɾɾԻ੠ग़ྗAPI

Whisper APIʢԻ੠ೖྗʣ • ετϦʔϛϯάೖྗ͸αϙʔτͯ͠ͳ͍ • ʮԻ੠ΛνϟϯΫ͝ͱʹૹΔʯํࣜͰετϦʔϛϯάΛ࣮ݱ͠ ͍ͯΔαʔυύʔςΟʔ࣮૷͸͍Ζ͍Ζ͋Δ

TTS APIʢԻ੠ग़ྗʣ • ετϦʔϛϯάग़ྗΛαϙʔτ͍ͯ͠Δ • υΩϡϝϯτɿ Text to speech -

৽APIͷϦϦʔεʹؾ෇͘ʹ͸ ެࣜPythonϥΠϒϥϦͷreleaseΛwatch͢Δ https://github.com/openai/openai-python/releases

·ͱΊ • GPT-4oͷʮϚϧνϞʔμϧʯ͸εϚϗͰେ׆༂ͦ͠͏ • OpenAI APIͷݱࡏͷରԠঢ়گ • iOSͰͷʮGPT-4oΛ༻͍ͨը૾ཧղɾಈըཧղʯͷ࣮૷ • ετϦʔϛϯάೖग़ྗରԠʹඋ͑Α͏

͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ