$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
Search
TAKUYA MIZUMA
June 23, 2023
Technology
5
2.1k
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
AWS DevDay 2023の登壇記事です
TAKUYA MIZUMA
June 23, 2023
Tweet
Share
More Decks by TAKUYA MIZUMA
See All by TAKUYA MIZUMA
フロントエンドエンジニアのためのAWSアーキテクチャ
tmizuma
15
8k
Other Decks in Technology
See All in Technology
pmconf2025 - データを活用し「価値」へ繋げる
glorypulse
0
620
なぜフロントエンド技術を追うのか?なぜカンファレンスに参加するのか?
sakito
10
2k
32のキーワードで学ぶ はじめての耐量子暗号(PQC) / Getting Started with Post-Quantum Cryptography in 32 keywords
quiver
0
290
Karate+Database RiderによるAPI自動テスト導入工数をCline+GitLab MCPを使って2割削減を目指す! / 20251206 Kazuki Takahashi
shift_evolve
PRO
1
310
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
1
210
あなたの知らないDateのひみつ / The Secret of "Date" You Haven't known #tqrk16
expajp
0
120
オープンデータの内製化から分かったGISデータを巡る行政の課題
naokim84
2
1.4k
AWS Bedrock AgentCoreで作る 1on1支援AIエージェント 〜Memory × Evaluationsによる実践開発〜
yusukeshimizu
4
270
たかが特別な時間の終わり / It's Only the End of Special Time
watany
28
7.6k
知っていると得する!Movable Type 9 の新機能を徹底解説
masakah
0
240
A Compass of Thought: Guiding the Future of Test Automation ( #jassttokai25 , #jassttokai )
teyamagu
PRO
1
220
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
700
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1032
470k
For a Future-Friendly Web
brad_frost
180
10k
Unsuck your backbone
ammeep
671
58k
Practical Orchestrator
shlominoach
190
11k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.1k
Rails Girls Zürich Keynote
gr2m
95
14k
How STYLIGHT went responsive
nonsquared
100
5.9k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
What's in a price? How to price your products and services
michaelherold
246
12k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. D E V D AY J U N 2 3 , 2 0 2 3
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ӳޠͰಡ͏ʂ"84υΩϡϝϯτ සग़ӳ୯ޠूʂͱɺͦͷ࡞Γํ ⽔⾺ 拓也 (Mizuma Takuya) F - 3 - 1 Software Engineer Wealthnavi 株式会社
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. ウェルスナビ株式会社 Software Engineer ⽔⾺ 拓也 (みずま たくや) --- Ø 全⾃動資産運⽤サービス の開発に従事 Ø 前職: アマゾンウェブサービスジャパン合同会社, Solutions Architect Ø 得意な⾔語 : JavaScript / TypeScript Ø 苦⼿な⾔語 : 英語 スピーカーの⾃⼰紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・ みなさん、AWSドキュメント英語で読んでいますか︕︖
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 英語でAWSドキュメントを読むことのメリット • ⽇本語に対応していないドキュメントがある • ⽇本語で読んだ場合細かいニュアンスを取りこぼす場合がある • 英語版と翻訳版で不⼀致がある場合、英語版が優先される • そもそも、翻訳精度が怪しいものが・・ • 英語で読めるとかっこいい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない ← ここにフォーカス ü 頻出順で単語を学んでいきたい ü 例⽂と合わせて単語を覚えたい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS公式ドキュメント頻出英単語1900作ってみた
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Agenda l AWSドキュメント頻出英単語帳の作り⽅ l 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWSドキュメント頻出英単語帳の 作り⽅
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳作成の基本⽅針 作成⽅針 • AWS 公式ドキュメントをスクレイピングする • ドキュメント内の単語をカウントし頻出順にソートする • 単語帳としての体裁を整える (単語/⽇本語訳/例⽂/例⽂⽇本語訳) あきらめること • 熟語、句動詞、慣⽤句の集計 : § 単語単位で集計するので複数の単語の組み合わせで意味を持つものは対象として 認識できない • ドキュメントの網羅性 : → sitemap に登録されていないドキュメントもある (Cognito のドキュメント
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. スクレイピングの対象 • sitemap から AWS ドキュメントURLの⼀覧を取得する ※ 英語版のみ § https://docs.aws.amazon.com/sitemap_index.xml → 9,567 pages! as of 2023.5.30 • 単語の集計範囲は #main-col-body > p::text (左図の⾚枠部分) • ノイズ除去のためページの Header や Footer, API Document は対象から外す 対象 対象外
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計⽅法 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳から除去する⽂字列 • 冠詞や前置詞, 助動詞, 主格代名詞 といった基本的な品詞 § 例) a, the, can, I, you • 特定の企業やサービス名 § 例) Amazon, AWS, EC2, Aurora, EKS … • ⼩〜中学校レベルの基本的な単語 § 例) have, get, like, book, some, good, people … • その他 § 数字、記号、その他単体で意味を成さない⽂字列
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 the: 定冠詞 you: 代名詞 to: 前置詞 can: 助動詞 be: be 動詞 in: 前置詞、副詞
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 aws, acm: サービスや企業の固有名詞 get, what: 基本的な単語
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳としての体裁を整える 単語帳に必要な要素 § 英単語 § ⽇本語訳 § 例⽂(英) § 例⽂⽇本語訳 OpenAI (Model: GPT-4) を使⽤して例⽂を作成 § 1900個の単語の例⽂と⽇本語訳の⽣成
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 ChatGPT (⼿作業) の場合 § token制限により⼀度のやり取りで10~15単語程度しか作成できない § GPT-4の利⽤制限 (25 requests / 3 hours) § レスポンスが安定しない LangChain を使ってOpenAIへのリクエストを⾃動化 ← 採⽤︕ § LangChain: ⼤規模⾔語モデルを拡張するライブラリ (Python/Typescript) § API呼び出しの場合、時間単位の利⽤制限なし § temperature (ランダム性) = 0 を指定してレスポンスが安定 § 1900語の単語を複数のchunkに分けて並列して実⾏ → (続く)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 (イメージ) 英単語1900 No.1~10 ・ ・ ・ No.11~20 No.21~30 No.1890 ~1900 No.1~10 英単語1900 + 例⽂ No.10~20 No.20~30 No.1890 ~1900 OpenAI (例⽂作成処理) chunk chunk chunk chunk
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) OpenAPI の API_KEYの指定 LangChain, OpenAI ライブラリのインストール モデル(GPT-4), temperatureの指定 GPT-4を指定 temperature=0 を指定することで決定論的になる (inputが変わらなければ結果が変わらない)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) 各チャンクに渡すプロンプトのテンプレートを指定 テンプレートに変数を埋め込む 三単現や複数形による揺らぎを 除去 (例. goes → go
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 結果: (chunk No.2968~2980 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋) AWSの⽂脈で例⽂が作成されている︕
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 結果 最後は⽬視で品質チェック: § どうしても想定外のノイズが残る。最後は⼈間の⽬でチェック & 除去 – youʼre , weʼre のような短縮系 – 三単現の s,es を除去した結果⽣じる単語の重複 • 例) OpenAIが 「goes」 を 「go」 と変換した結果、元々あった「go」と重 複する コスト(時間/お⾦): § スクレイピング: 15分くらい § 例⽂作成(OpenAI): 5並列で2時間くらい (Top: 3000まで算出) § OpenAIの⾦銭的コスト: $15.96
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top10 → 栄えある1位は「following」
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top20 → 簡単な単語も例⽂を⽤いて正しく意味を理解できるかチェックすると良い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top500〜
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top〜1900
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語学習量とドキュメントのカバー率 1900単語をマスターすればドキュメントの 91.77% の単語をカバー ※1 ※1 集計から除去した単語もあるため実際の値はもう少し⾼い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳はウェルスナビテックブログで公開︕ 公開形式 § CSV § JSON § Markdown 英語で読もう︕ AWSドキュメント頻出英単語集1900︕ https://tech.wealthnavi.com/entry/20230 623/1687480819
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. まとめ l 英語で読むと最新の情報を正確に得ることができる l 頻出英単語1900をマスターすれば 90% 以上の単語が読める l 例⽂も合わせて学習することで AWS の⽂脈に沿って単語を学ぶこと ができる
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Takuya Mizuma @mizuma_t