Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
Search
yag_ays
May 10, 2022
Technology
1
2.1k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
https://forkwell.connpass.com/event/245507/
yag_ays
May 10, 2022
Tweet
Share
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
6k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
1.9k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
8.4k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
13k
LT at nlp_career
yag_ays
0
290
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.1k
Other Decks in Technology
See All in Technology
Lambda10周年!Lambdaは何をもたらしたか
smt7174
2
110
B2B SaaSから見た最近のC#/.NETの進化
sansantech
PRO
0
900
強いチームと開発生産性
onk
PRO
35
11k
Lambdaと地方とコミュニティ
miu_crescent
2
370
ノーコードデータ分析ツールで体験する時系列データ分析超入門
negi111111
0
420
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.5k
複雑なState管理からの脱却
sansantech
PRO
1
150
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
estie
0
130
開発生産性を上げながらビジネスも30倍成長させてきたチームの姿
kamina_zzz
2
1.7k
Why App Signing Matters for Your Android Apps - Android Bangkok Conference 2024
akexorcist
0
130
Terraform Stacks入門 #HashiTalks
msato
0
360
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
110
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Done Done
chrislema
181
16k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Code Review Best Practice
trishagee
64
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
Typedesign – Prime Four
hannesfritz
40
2.4k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Transcript
ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ 2022/05/10 Ubieגࣜձࣾ Ԟా ༟थ
2 Ԟా ༟थ @yag_ays Recruit → Sansan → Ubie ࣗݾհ
https://yag-ays.github.io/
3 ࠓ͓͢Δ͜ͱ • ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ • ը૾ೝࣝԻใॲཧͱͷΈ߹ΘͤͱɺෳࡶͳγεςϜߏஙʹΑΓੜ͡Δ՝ • Ubieʹ͓͚Δࣗવݴޠॲཧ׆༻ͷ۩ମࣄྫ • OCR݁Ռ͔ΒͷࣗવݴޠॲཧʹΑΔใநग़ͷࣄྫ
• ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ • ελʔτΞοϓʹ͓͚ΔػցֶशΤϯδχΞ/σʔλαΠΤϯςΟετͲ͏ৼΔ͏ͱྑ͍͔
4 ͱࣖΛ࣋ͬͨࣗવݴޠॲཧ
5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ͕Γ • ୯ҰͷػցֶशϞσϧΛͯΊΔ͚ͩͰՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓೳ, AIͱݺΕೝ͕͕ͬͨʣ • ਓؒʹػցʹෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •
ΑΓՁͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰସ͢Δೳྗͷඞཁੑ • Α͏͘ݱ࣮ͷΛղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେنσʔλͳੈք͕த৺ • ݹ͘εύϜϝʔϧఆɻۙͩͱػց༁ػցཁɺࡶஊԠ • ͦΕҎ֎ͷपลྖҬɺଞͷυϝΠϯͱͷؔੑੜ͖ͯͨ͡ • ཧతͳॻྨจࣈใɺਓؒͷͷձԻͳͲ ͱ͔ࣖΒೖͬͯ͘ΔใΛࣗવݴޠॲཧͰѻ͏
6 • 👀 : ը૾ใ • 2࣍ݩฏ໘্ʹจࣈจॻ͕ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷஔϑΥϯτɺ৭ɺਤදͱ͍ͬͨϨΠΞτ͕ҙຯΛ࣋ͭ •
e.g. ܖॻٻॻɺϨγʔτɺจɺͳͲ • 👂 : Իใ • ୯Ұ·ͨෳͷਓ͕ؒൃ͢ΔԻΛɺԻೝࣝʹΑͬͯจࣈྻʹม͢Δ • ͠ݴ༿ͱ͍͏ɺจ๏తഁݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ৗձɺࡶஊɺεϚʔτεϐʔΧʔͷ͍߹ΘͤɺͳͲ ࣖΛܦͯಘΒΕͨใɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
7 ՝1: ࣖΛࣗ࡞͢Δͷࠔ • OCRԻೝࣝΤϯδϯͯ͢ΛࣗࣾͰ͢Δͷ͍͠ • ͦΕ͕ग़དྷΔͷσʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •
ܧଓతͳϝϯςφϯεਫ਼্ʹଟେͳίετ͕͔͔Δ • ݱ࣮తʹɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ͓࣌ؒۚແ͍ελʔτΞοϓಛʹ • ֎෦ͷࣖͷਫ਼Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ্ͤ͞Δ͜ͱࠔ • ࣮ߦ࣌ͷύϥϝʔλ֎෦ใΛར༻Ͱ͖ΔαʔϏεଘࡏ͢Δ͕ɺద༻ൣғݶఆత • Ұఆͷਫ਼Ͱڐ༰͢Δ΄͔ແ͍
8 • ػցֶशϞσϧ͕ྻʹܨ͕Γɺਫ਼ֻ͕͚ࢉͰԼ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ)
ਫ਼͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Εɺ࿈݁͢ΕશମͰ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ·͍͕͠ɺσʔλ४උ ࣮؍Ͱݱ࣮ʹ͍͜͠ͱ͕ଟ͍ ՝2: ෳͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼Լ ػցֶशϞσϧA ػցֶशϞσϧB
9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈใ •
ԻೝࣝʹΑΓಘΒΕͨൃͷจࣈܥྻใ • 2छྨͷ՝ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼Լ ͜͜·Ͱͷ·ͱΊ
10 Ubieʹ͓͚Δࣗવݴޠॲཧͷ׆༻ࣄྫ
11 • ͓ༀεΩϟϯɺհঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱใநग़Λߦ͏ • ໊લͳͲͷݸਓใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ
• ຊͰॲํ͞Ε͍ͯΔༀࡎ໊ط (DBͱͯ͠ଘࡏ) ͓ༀखாհঢ়͔Βͷใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯ͨ൩ʹ ңԌʹͳͬͨͱ͖ͷॲํ
12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾
3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ
13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ
14 x0 y0 x1 y1 20 12 26 18
ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21 63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ରྖҬͷநग़ɺ֯ͷิਖ਼ɺը૾ͷղ૾ 3.
OCRʹΑΓจࣈͱ࠲ඪใΛಘΔ • ෳ୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅΛࢉग़ • ޡݕग़ࢭͳͲͷޙॲཧΛՃ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅʹΑΓఆ͢Δ Α͋͘ΔಡΈऔΓϛε
16 ϦΞϧσʔλͳΒͰͷ͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ
• ॲํ͞Εͨༀࡎ1͕ͭͩɺԿߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ • ಥવͷվߦ • OCRͱͯ͠ߏจ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒͣɺஅ͞ΕΔ ҉ͷߏԽ ϩΩιϓϩϑΣϯφճৣ τϦϜৣNHʮ αϫΠʯ
17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔ΒͷྖҬநग़ɺ֯ิਖ਼ɺ৭ௐิਖ਼ಠ࣮ࣗ • OCR • GCPͷCloud Vision
APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦จࣈྻͷྨࣅܭࢉͳͲߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽਫ਼ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮΛ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃσόοά͕ඇৗʹ͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕ͔ͯΒͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮͍ͯ͠Δͷ͔
18 ελʔτΞοϓʹ͓͚ΔՁग़ͷͨΊʹ
19 • ػցֶशࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝ • ෳͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ֎෦αʔϏεͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱ͔ͪΘͳ͚Ε͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭϏδωεϞσϧࣗମʹओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •
ػೳͷҰ෦͑͞୲͍ͯ͠ΕɺPO୭͔͕ΓΛ্ख͍͜ͱͬͯ͘ΕΔΑ͏ͳ͜ͱك • ͰελʔτΞοϓͷػցֶशΤϯδχΞσʔλαΠΤϯςΟετɺԿΛҙࣝ͠ͳΕ͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
20 ελʔτΞοϓͰٻΊΒΕΔ͜ͱ3ͭ ֑ʹམͪΔͷΛ͙ ૉૣ͘ݕূ͢Δ ৗʹثΛຏ͍͓ͯ͘
21 • ࣄۀαʔϏε͕֑͔ΒམͪΔͷΛ͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊʹେৎͦ͏͔Λஅ͢Δ • ݱ࣮తʹՄೳ > ཧతʹՄೳ >
ݱ࣮తʹෆՄೳ > ཧతʹෆՄೳ • ͦΕͱಉ࣌ʹݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢେࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝͕͗͢͠Δέʔε • ઐٕೳෳࡶͳॲཧ͕ඞཁͰɺਓؒͰਖ਼֬ʹߦ͏͜ͱ͕͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़ΛͬͯՌΛ্͍͛ͨͱ͍͏έʔε • AIΛͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ͙
22 ελʔτΞοϓʹ͓͚Δ֑ͷᄻ͑ ʮىۀͱ֑͔Βඈͼ߱Γɺ མͪΔ·ͰʹඈߦػΛΈཱͯΔΑ͏ͳͷʯ ϦʔυɾϗϑϚϯ (LinkedInۀऀ) https://sketchplanations.com/starting-a-company https://logmi.jp/business/articles/36553
23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷ͕ࣗᅤ͘ • ͳͥͦͷΑ͏ͳஅΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹແͷάϥσʔγϣϯ͕͋Δ
• ͲͷΑ͏ͳ݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͔Δ ͬͯΈͳ͍ͱ͔Βͳ͍͔…… ͍͠ͱ͖ͬͺΓஅ͔ͬͯͬΓਏ͍ ໌Β͔ʹ͍͠λεΫࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓଞͷॏཁͳ՝ʹྗ͍ͨ͠
24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰʮLaunch and
Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷Ͱΰʔϧʹ͔͏ ૉૣ͘ݕূ͢Δ
25 • ػցֶश؍ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ͋Δσʔλ͕ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •
ͲΕ͘Β͍ͷσʔλྔ͕͋Εेͳͷ͔ʁ • naiveͳख๏ͷਫ਼ɺཧతͳݶքʢਓؒʣͷਫ਼ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ࣌ؒɺಈ࡞ڥͳͲͷϩδοΫҎ֎ͷ੍͋Δ͔ʁ • Ϗδωε؍ • ސ٬ػցֶशϞσϧͷਫ਼͕ͲΕ͘Β͍ʹͳΕຬ͢Δ͔ʁ Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
26 • bootstrap • ػցֶशϞσϧΛ࡞Δʹֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹଟ͘ͷϢʔβʹར ༻ͯ͠ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠Β͏ʹ͋Δఔͷਫ਼ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ…… (࠷ॳʹΔ) • Կແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ
• ΰϛਫ਼Ͱ͍͍ͷͰɺಈ͘ϞϊΛ࡞͢ΔʢPoCʣ • ܭࢉػͷΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏͍ϝιουʣ • [େࣄ!!!] ͻͨ͢ΒࣗͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱ͔ͪͩΔน - ͳʹͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λஅ͠ૉૣ͘ݕূ͢ΔʹɺৗʹثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ࣮ߦڥɺσʔλܗͷํ๏ͳͲ • ܦݧ •
λεΫઃܭղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ࣝ • ଞࣾͷࣄྫɺۙͷओཁͳจͳͲ • ৗʹ࠷৽ͷͷͰ͋Δඞཁͳ͍ • Ή͠Ζ͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹثΛຏ͍͓ͯ͘
28 • ൚༻తʹ͑ΔֶशࡁΈϞσϧΛ͍ͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ • Կσʔλ͕ແͯ͘ॳखͰ͑ΔثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi
• ݻ༗දݱநग़ɿspaCy+GiNZA • େنݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰඋ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ҙ • Hugging FaceͷTransformers։ൃεϐʔυ͕ૣͯ͘ै͢ΔͷେมͳͷͰɺ΄Ͳ΄Ͳʹ ثͦͷ1ɿֶशࡁΈϞσϧ֤छπʔϧ
29 • ͏༧ఆ͕ͳͯ͘ɺͱʹ͔͘ݴޠࢿݯҙࣝͯ͠ूΊ͓ͯ͘ • ࠒ͔ΒूΊΔบΛ͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ͞Ε͍ͯΔίʔύε
• ಛఆυϝΠϯͷΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitterʣ • ख๏ • Scrapyɿpagination͕͋ΔߏԽ͞ΕͨΣϒαΠτ͕ର • Selenium: jsΛར༻ͨ͠ϒϥβͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
30 • ղ͖͘Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷࣝͱυϝΠϯࣝͷ༥߹ •
٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞ͯ͠ɺ͔ͭਓʹڭ͑Δͷຊʹ͍͠ • πʔϧαʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰσʔλ࡞Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͋Γ·ͤΜʣ ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
31 • ݴޠॲཧֶձ࣍େձ • ຊޠͷݚڀՌ͕ू·Δࠃ࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕ͯ͢ެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫࢀর͍͢͠ • Paper with
Code • λεΫ/σʔληοτԣஅͰจͷख๏ਫ਼ΛൺֱͰ͖ΔαΠτ • จͷެࣜ/ඇެࣜͷ࣮ใ (GitHubͷϦϯΫ) ͕ඥ͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͡Ίͯͷࣗવݴޠॲཧʯ ثͦͷଞɿ༗༻ͳใݯ
32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝԻೝࣝͱͷΈ߹Θ͕ͤ૿͖͑ͯͨ • ෳͷػցֶशϞσϧʹΑΔਫ਼Լ֎෦αʔϏεґଘҰఆ໔Εͳ͍ • Ubieͷࣄྫ •
OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ͙ • ͦͷͨΊʹૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹৗʹثΛຏ͍͓͍͍ͯͯͭͰ͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ