Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20230518_苦労を重ねて実装して実装したのに一掃されたこと_
Search
midnight480
May 18, 2023
Technology
0
180
20230518_苦労を重ねて実装して実装したのに一掃されたこと_
Pythonも書けない、OpenAIもよくわからない初学者が雰囲気でLlamaIndex触った話です
midnight480
May 18, 2023
Tweet
Share
More Decks by midnight480
See All by midnight480
20241123_SAGA IT Community DayのLP裏側
midnight480
0
4
20241004_JAWSPANKRATION2024-re_Trospective-sending-swags
midnight480
1
40
20240626_SAGASmartCommunity_JAWS-UG佐賀紹介資料
midnight480
1
13
20240601_Cloudflare Accessで簡単にプライベートの資源にアクセス
midnight480
1
35
20240322_SAGASmartCommunity_JAWS-UG佐賀紹介資料
midnight480
0
28
20240607_IT/Webエンジニアの『ゾッ』とする話
midnight480
0
36
20240601_Cloudflare Accessで簡単にプライベートの資源にアクセス
midnight480
1
24
20240322_SAGASmartCommunity_JAWS-UG佐賀紹介資料 #SSC
midnight480
1
300
20240319_JBUG#0
midnight480
0
83
Other Decks in Technology
See All in Technology
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
120
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
380
5分でわかるDuckDB
chanyou0311
10
3.2k
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
2
530
[Ruby] Develop a Morse Code Learning Gem & Beep from Strings
oguressive
1
160
継続的にアウトカムを生み出し ビジネスにつなげる、 戦略と運営に対するタイミーのQUEST(探求)
zigorou
0
540
LINE Developersプロダクト(LIFF/LINE Login)におけるフロントエンド開発
lycorptech_jp
PRO
0
120
Amazon SageMaker Unified Studio(Preview)、Lakehouse と Amazon S3 Tables
ishikawa_satoru
0
150
生成AIをより賢く エンジニアのための RAG入門 - Oracle AI Jam Session #20
kutsushitaneko
4
230
UI State設計とテスト方針
rmakiyama
2
580
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
100
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Building Applications with DynamoDB
mza
91
6.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
A Philosophy of Restraint
colly
203
16k
Code Reviewing Like a Champion
maltzj
520
39k
For a Future-Friendly Web
brad_frost
175
9.4k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Why Our Code Smells
bkeepers
PRO
335
57k
Transcript
苦労を「重ねて」 実装したのに 一掃された 2023年5月18日 レイヤード Meetup LT会 vol.1
楽しんでますか??
今日の大まかな流れ 1. 自己紹介 2. 流行りもの 3. 実現したいこと 4. 実際にやってみたこと 5.
衝撃を受けたこと 6. まとめ
自己紹介 大分(22年) → 東京(11年) → 福岡(2021.11~)→ 佐賀(2023.9予定?) midnight480 midnight480 midnight480
https://astro.midnight480.com/ • JAWS-UG (Japan AWS - User Group ) ◦ 佐賀支部 - 運営 ◦ 福岡支部 - 運営支援 ◦ 大分支部 - 福岡出張所 • AWS Startup Community ◦ 福岡運営 • Microsoft Startup Tech Community New!! ◦ 運営 ほかにもJagu'e'r 九州分科会(GoogleとNDAが必要)に参加したり、 Fusicさんやヌーラボさんのイベント、エンジニアカフェに出没します 柴尾 哲也(しばお てつや)
流行りもの みなさん、生成AI周りの最新を追えていますか?
社内の状況としては • OpenAI ◦ ChatGPT Plus を全社員 ◦ Platform 側のOrgにMember招待
▪ Opt Out申請 ▪ GPT-4 API 申請 ▪ Plugin申請 • Azure OpenAI Service ◦ AzureAD側整備(セキュリティグループ) ▪ 国内外の社内利用者 ◦ GPT-4申請、DALL・E申請、Codex申請 • GitHub Copilot ◦ 手続きまとめ User 管理の悩ましい Owner と Readerの2つしかないし 運用している人いたら話しましょう
実現したいこと Input Output
実現したいこと Input • Notion API ◦ ブロック単位で取得 ◦ 本文を取得 ◦
CSVで保存(結果の確認用にブロック IDなど) • OpenAI(Azure OpenAIでもいい) ◦ Embeddings それらをPythonで実装
実際にやってみたこと • Notionのデータの持ち方が厄介 ◦ すべてのオブジェクトをブロックとして保持 ▪ jq -c 'path(..)' or
jq-searchkey を使って深さを確認
実際にやってみたこと • Azure でやってみる ◦ Azure App Service + Blob
Storage ▪ デプロイできず断念 ◦ Azure Function + Blob Storage Service ▪ デプロイまでは出来たが、 Blob Storageに出力されず断念 • AWS でやることにする ◦ AWS Lambda + S3 ▪ AWS CDK v2のLambdaのデプロイ手間で断念 ▪ Serverless FrameworkでデプロイしてS3にCSV出力できた
実現したいこと • OpenAI(Azure OpenAIでもいい) ◦ Embeddings ▪ Azure公式Docsに従えば実現できた( Google Colab上)
• text-embedding-ada-002 はダメで(環境要因?) • text-search-curie-doc-001 だとできた https://learn.microsoft.com/ja-jp/azure/cognitive-services/openai/tutorials/embeddings
実現したいこと Input Output
Notionから出力するところを改善したい 「LangChainとかLlamaIndexとか使ってみると楽になるんじゃない?」
LlamaIndexでやってみる Notion のコネクタと学習部分を作ってみる 簡単にするなら、これで全部 前処理が「\n\n」除去だけなので注意
None
まとめ • Azure Functionのデプロイは簡単だった ◦ func new –name ${DIrectory} –template
“Timer trigger” ▪ AWSで言えば、AWS Lambda + Evnetbridge Rulesをひと纏め • AWS CDK でLambda(Pythonと追加モジュール)は少し手間で断念 ◦ https://aws.amazon.com/jp/blogs/news/lambda-managed-by-cdk/ • Serverless FrameworkではDockerあれば簡単 ◦ Build時にrequirements.txtを見てAssetを作成する過程でDocker内で処理する • LangChainやLlamaIndexといったライブラリは初心者にとって有益 ◦ 有識者からすると前処理が不足していると感じることもある ◦ 開発が盛んなので破壊的変更、 β版メソッドが使えなくなることもある
LlamaIndexで参考にしたものの 2023.03.23 https://dev.classmethod.jp/articles/llamaindex_with_notion-loader/ https://github.com/jerryjliu/llama_index/issues/3263
宣伝 2023/05/24(水) 19:00 〜 21:00 https://jawsug-saga.doorkeeper.jp/events/155541 2023/06/17(土) 13:00 〜 17:00 https://jawsug-saga.doorkeeper.jp/events/155542 2023/10/7(土)
JAWS Festa 2023 in Kyushu https://jft2023.jaws-ug.jp/ 8/19(土)にもクラウド女子会・佐賀・長崎合同で予定 全国からAWSエンジニアが福岡に来ます
Thank you for your time 😊
Thank you for Bing Image Creator 😊