Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
Search
yag_ays
May 10, 2022
Technology
1
3.2k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
https://forkwell.connpass.com/event/245507/
yag_ays
May 10, 2022
Tweet
Share
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
6.2k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
2k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
8.8k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
13k
LT at nlp_career
yag_ays
0
310
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.1k
Other Decks in Technology
See All in Technology
OpenHands🤲にContributeしてみた
kotauchisunsun
1
480
あなたの声を届けよう! 女性エンジニア登壇の意義とアウトプット実践ガイド #wttjp / Call for Your Voice
kondoyuko
4
480
Yamla: Rustでつくるリアルタイム性を追求した機械学習基盤 / Yamla: A Rust-Based Machine Learning Platform Pursuing Real-Time Capabilities
lycorptech_jp
PRO
4
150
Leveraging Open-Source Tools for Creating 3D Tiles in the Urban Environment
simboss
PRO
0
120
Oracle Audit Vault and Database Firewall 20 概要
oracle4engineer
PRO
3
1.7k
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 完全版 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming - Expanded
tomzoh
4
3.3k
Microsoft Build 2025 技術/製品動向 for Microsoft Startup Tech Community
torumakabe
2
310
Claude Code Actionを使ったコード品質改善の取り組み
potix2
PRO
6
2.5k
作曲家がボカロを使うようにPdMはAIを使え
itotaxi
0
190
生成AI時代 文字コードを学ぶ意義を見出せるか?
hrsued
1
650
How Community Opened Global Doors
hiroramos4
PRO
1
130
データプラットフォーム技術におけるメダリオンアーキテクチャという考え方/DataPlatformWithMedallionArchitecture
smdmts
5
660
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Building Adaptive Systems
keathley
43
2.6k
The Language of Interfaces
destraynor
158
25k
The Invisible Side of Design
smashingmag
300
51k
The Cult of Friendly URLs
andyhume
79
6.5k
Being A Developer After 40
akosma
90
590k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Producing Creativity
orderedlist
PRO
346
40k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Writing Fast Ruby
sferik
628
62k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Transcript
ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ 2022/05/10 Ubieגࣜձࣾ Ԟా ༟थ
2 Ԟా ༟थ @yag_ays Recruit → Sansan → Ubie ࣗݾհ
https://yag-ays.github.io/
3 ࠓ͓͢Δ͜ͱ • ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ • ը૾ೝࣝԻใॲཧͱͷΈ߹ΘͤͱɺෳࡶͳγεςϜߏஙʹΑΓੜ͡Δ՝ • Ubieʹ͓͚Δࣗવݴޠॲཧ׆༻ͷ۩ମࣄྫ • OCR݁Ռ͔ΒͷࣗવݴޠॲཧʹΑΔใநग़ͷࣄྫ
• ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ • ελʔτΞοϓʹ͓͚ΔػցֶशΤϯδχΞ/σʔλαΠΤϯςΟετͲ͏ৼΔ͏ͱྑ͍͔
4 ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ
5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ͕Γ • ୯ҰͷػցֶशϞσϧΛͯΊΔ͚ͩͰՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓೳ, AIͱݺΕೝ͕͕ͬͨʣ • ਓؒʹػցʹෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •
ΑΓՁͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰସ͢Δೳྗͷඞཁੑ • Α͏͘ݱ࣮ͷΛղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେنσʔλͳੈք͕த৺ • ݹ͘εύϜϝʔϧఆɻۙͩͱػց༁ػցཁɺࡶஊԠ • ͦΕҎ֎ͷपลྖҬɺଞͷυϝΠϯͱͷؔੑੜ͖ͯͨ͡ • ཧతͳॻྨจࣈใɺਓؒͷͷձԻͳͲ ͱ͔ࣖΒೖͬͯ͘ΔใΛࣗવݴޠॲཧͰѻ͏
6 • 👀 : ը૾ใ • 2࣍ݩฏ໘্ʹจࣈจॻ͕ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷஔϑΥϯτɺ৭ɺਤදͱ͍ͬͨϨΠΞτ͕ҙຯΛ࣋ͭ •
e.g. ܖॻٻॻɺϨγʔτɺจɺͳͲ • 👂 : Իใ • ୯Ұ·ͨෳͷਓ͕ؒൃ͢ΔԻΛɺԻೝࣝʹΑͬͯจࣈྻʹม͢Δ • ͠ݴ༿ͱ͍͏ɺจ๏తഁݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ৗձɺࡶஊɺεϚʔτεϐʔΧʔͷ͍߹ΘͤɺͳͲ ࣖΛܦͯಘΒΕͨใɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
7 ՝1: ࣖΛࣗ࡞͢Δͷࠔ • OCRԻೝࣝΤϯδϯͯ͢ΛࣗࣾͰ͢Δͷ͍͠ • ͦΕ͕ग़དྷΔͷσʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •
ܧଓతͳϝϯςφϯεਫ਼্ʹଟେͳίετ͕͔͔Δ • ݱ࣮తʹɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ͓࣌ؒۚແ͍ελʔτΞοϓಛʹ • ֎෦ͷࣖͷਫ਼Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ্ͤ͞Δ͜ͱࠔ • ࣮ߦ࣌ͷύϥϝʔλ֎෦ใΛར༻Ͱ͖ΔαʔϏεଘࡏ͢Δ͕ɺద༻ൣғݶఆత • Ұఆͷਫ਼Ͱڐ༰͢Δ΄͔ແ͍
8 • ػցֶशϞσϧ͕ྻʹܨ͕Γɺਫ਼ֻ͕͚ࢉͰԼ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ)
ਫ਼͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Εɺ࿈݁͢ΕશମͰ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ·͍͕͠ɺσʔλ४උ ࣮؍Ͱݱ࣮ʹ͍͜͠ͱ͕ଟ͍ ՝2: ෳͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼Լ ػցֶशϞσϧA ػցֶशϞσϧB
9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈใ •
ԻೝࣝʹΑΓಘΒΕͨൃͷจࣈܥྻใ • 2छྨͷ՝ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼Լ ͜͜·Ͱͷ·ͱΊ
10 Ubieʹ͓͚Δࣗવݴޠॲཧͷ׆༻ࣄྫ
11 • ͓ༀεΩϟϯɺհঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱใநग़Λߦ͏ • ໊લͳͲͷݸਓใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ
• ຊͰॲํ͞Ε͍ͯΔༀࡎ໊ط (DBͱͯ͠ଘࡏ) ͓ༀखாհঢ়͔Βͷใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯ͨ൩ʹ ңԌʹͳͬͨͱ͖ͷॲํ
12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾
3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ
13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ
14 x0 y0 x1 y1 20 12 26 18
ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21 63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅʹΑΓఆ͢Δ Α͋͘ΔಡΈऔΓϛε
16 ϦΞϧσʔλͳΒͰͷ͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ
• ॲํ͞Εͨༀࡎ1͕ͭͩɺԿߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ • ಥવͷվߦ • OCRͱͯ͠ߏจ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒͣɺஅ͞ΕΔ ҉ͷߏԽ ϩΩιϓϩϑΣϯφճৣ τϦϜৣNHʮ αϫΠʯ
17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔ΒͷྖҬநग़ɺ֯ิਖ਼ɺ৭ௐิਖ਼ಠ࣮ࣗ • OCR • GCPͷCloud Vision
APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦จࣈྻͷྨࣅܭࢉͳͲߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽਫ਼ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮΛ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃσόοά͕ඇৗʹ͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕ͔ͯΒͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮͍ͯ͠Δͷ͔
18 ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ
19 • ػցֶशࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝ • ෳͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ֎෦αʔϏεͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱ͔ͪΘͳ͚Ε͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭϏδωεϞσϧࣗମʹओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •
ػೳͷҰ෦͑͞୲͍ͯ͠ΕɺPO୭͔͕ΓΛ্ख͍͜ͱͬͯ͘ΕΔΑ͏ͳ͜ͱك • ͰελʔτΞοϓͷػցֶशΤϯδχΞσʔλαΠΤϯςΟετɺԿΛҙࣝ͠ͳΕ͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
20 ελʔτΞοϓͰٻΊΒΕΔ͜ͱ3ͭ ֑ʹམͪΔͷΛ͙ ૉૣ͘ݕূ͢Δ ৗʹثΛຏ͍͓ͯ͘
21 • ࣄۀαʔϏε͕֑͔ΒམͪΔͷΛ͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊʹେৎͦ͏͔Λஅ͢Δ • ݱ࣮తʹՄೳ > ཧతʹՄೳ >
ݱ࣮తʹෆՄೳ > ཧతʹෆՄೳ • ͦΕͱಉ࣌ʹݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢେࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝͕͗͢͠Δέʔε • ઐٕೳෳࡶͳॲཧ͕ඞཁͰɺਓؒͰਖ਼֬ʹߦ͏͜ͱ͕͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़ΛͬͯՌΛ্͍͛ͨͱ͍͏έʔε • AIΛͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ͙
22 ελʔτΞοϓʹ͓͚Δ֑ͷᄻ͑ ʮىۀͱ֑͔Βඈͼ߱Γɺ མͪΔ·ͰʹඈߦػΛΈཱͯΔΑ͏ͳͷʯ ϦʔυɾϗϑϚϯ (LinkedInۀऀ) https://sketchplanations.com/starting-a-company https://logmi.jp/business/articles/36553
23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷ͕ࣗᅤ͘ • ͳͥͦͷΑ͏ͳஅΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹແͷάϥσʔγϣϯ͕͋Δ
• ͲͷΑ͏ͳ݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͔Δ ͬͯΈͳ͍ͱ͔Βͳ͍͔…… ͍͠ͱ͖ͬͺΓஅ͔ͬͯͬΓਏ͍ ໌Β͔ʹ͍͠λεΫࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓଞͷॏཁͳ՝ʹྗ͍ͨ͠
24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰʮLaunch and
Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷Ͱΰʔϧʹ͔͏ ૉૣ͘ݕূ͢Δ
25 • ػցֶश؍ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ͋Δσʔλ͕ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •
ͲΕ͘Β͍ͷσʔλྔ͕͋Εेͳͷ͔ʁ • naiveͳख๏ͷਫ਼ɺཧతͳݶքʢਓؒʣͷਫ਼ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ࣌ؒɺಈ࡞ڥͳͲͷϩδοΫҎ֎ͷ੍͋Δ͔ʁ • Ϗδωε؍ • ސ٬ػցֶशϞσϧͷਫ਼͕ͲΕ͘Β͍ʹͳΕຬ͢Δ͔ʁ Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
26 • bootstrap • ػցֶशϞσϧΛ࡞Δʹֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹଟ͘ͷϢʔβʹར ༻ͯ͠ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠Β͏ʹ͋Δఔͷਫ਼ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ…… (࠷ॳʹΔ) • Կແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ
• ΰϛਫ਼Ͱ͍͍ͷͰɺಈ͘ϞϊΛ࡞͢ΔʢPoCʣ • ܭࢉػͷΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏͍ϝιουʣ • [େࣄ!!!] ͻͨ͢ΒࣗͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱ͔ͪͩΔน - ͳʹͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λஅ͠ૉૣ͘ݕূ͢ΔʹɺৗʹثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ࣮ߦڥɺσʔλܗͷํ๏ͳͲ • ܦݧ •
λεΫઃܭղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ࣝ • ଞࣾͷࣄྫɺۙͷओཁͳจͳͲ • ৗʹ࠷৽ͷͷͰ͋Δඞཁͳ͍ • Ή͠Ζ͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹثΛຏ͍͓ͯ͘
28 • ൚༻తʹ͑ΔֶशࡁΈϞσϧΛ͍ͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ • Կσʔλ͕ແͯ͘ॳखͰ͑ΔثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi
• ݻ༗දݱநग़ɿspaCy+GiNZA • େنݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰඋ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ҙ • Hugging FaceͷTransformers։ൃεϐʔυ͕ૣͯ͘ै͢ΔͷେมͳͷͰɺ΄Ͳ΄Ͳʹ ثͦͷ1ɿֶशࡁΈϞσϧ֤छπʔϧ
29 • ͏༧ఆ͕ͳͯ͘ɺͱʹ͔͘ݴޠࢿݯҙࣝͯ͠ूΊ͓ͯ͘ • ࠒ͔ΒूΊΔบΛ͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ͞Ε͍ͯΔίʔύε
• ಛఆυϝΠϯͷΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitterʣ • ख๏ • Scrapyɿpagination͕͋ΔߏԽ͞ΕͨΣϒαΠτ͕ର • Selenium: jsΛར༻ͨ͠ϒϥβͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
30 • ղ͖͘Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷࣝͱυϝΠϯࣝͷ༥߹ •
٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞ͯ͠ɺ͔ͭਓʹڭ͑Δͷຊʹ͍͠ • πʔϧαʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰσʔλ࡞Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͋Γ·ͤΜʣ ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
31 • ݴޠॲཧֶձ࣍େձ • ຊޠͷݚڀՌ͕ू·Δࠃ࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕ͯ͢ެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫࢀর͍͢͠ • Paper with
Code • λεΫ/σʔληοτԣஅͰจͷख๏ਫ਼ΛൺֱͰ͖ΔαΠτ • จͷެࣜ/ඇެࣜͷ࣮ใ (GitHubͷϦϯΫ) ͕ඥ͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͡Ίͯͷࣗવݴޠॲཧʯ ثͦͷଞɿ༗༻ͳใݯ
32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝԻೝࣝͱͷΈ߹Θ͕ͤ૿͖͑ͯͨ • ෳͷػցֶशϞσϧʹΑΔਫ਼Լ֎෦αʔϏεґଘҰఆ໔Εͳ͍ • Ubieͷࣄྫ •
OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ͙ • ͦͷͨΊʹૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹৗʹثΛຏ͍͓͍͍ͯͯͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ