Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ことのはの力で画像の異常検知 / Anomaly Detection by Language
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Henry Cui
September 30, 2023
Technology
710
0
Share
ことのはの力で画像の異常検知 / Anomaly Detection by Language
Henry Cui
September 30, 2023
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
250
Direct Preference Optimization
zchenry
0
450
Diffusion Model with Perceptual Loss
zchenry
0
520
レンズの下のLLM / LLM under the Lens
zchenry
0
230
Go with the Prompt Flow
zchenry
0
220
Mojo Dojo
zchenry
0
260
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
320
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
200
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
200
Other Decks in Technology
See All in Technology
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
0
120
"スキルファースト"で作る、AIの自走環境
subroh0508
1
650
Purview Endpoint DLP 動かしてみた
kozakigh
1
460
20260515 OpenIDファウンデーション・ジャパンご紹介
oidfj
0
260
R&D 祭 2024 UE5で絵コンテ・作画の制作支援ツールをつくる話
olmdrd
PRO
0
200
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
510
マンション備え付けのネットワークとLTE回線を組み合わせた ネットワークの安定化の考案
harutiro
1
140
キャリア25年目にしてTypeScript に出会うまで - 「型」を通じて振り返るプログラミング言語遍歴 / Meeting TypeScript After 25 Years in Tech - Looking Back at My Programming Language Journey Through "Types"
bitkey
PRO
2
130
自作エディターをOSSにして分かった、一人に刺さる開発が世界を動かす理由
shinyasaita
0
140
AWS WAFの運用を地道に改善し、自社で運用可能にするプラクティス
andpad
1
630
AI時代に求められる思考のパラダイムシフト
nrinetcom
PRO
0
110
RedmineをAIで効率的に使う検証
yoshiokacb
0
170
Featured
See All Featured
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.9k
Music & Morning Musume
bryan
47
7.2k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
230
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
200
Game over? The fight for quality and originality in the time of robots
wayneb77
1
170
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
250
Fireside Chat
paigeccino
42
3.9k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
550
Navigating Weather and Climate Data
rabernat
0
190
Transcript
ことのはの力で画像の異常検知 機械学習の社会実装勉強会第27回 Henry 2023/9/30
論文の紹介 ▪ 最近の基盤モデル(言語モデルと画像モデル)の発達により、その知識で 画像異常検知を行うモチベーション • まだ実用化まで距離あるが、技術的に面白い方法性 ▪ AnomalyGPT: Detecting Industrial
Anomalies using Large Vision-Language Models • https://github.com/CASIA-IVA-Lab/AnomalyGPT • 実装も公開されているのでありがたい 2
論文のモチベーション ▪ Vision付きLLM(MiniGPT-4やLLaVA)は一般物体について認 識できるが、ドメインごとの専門知識や局所の細部についての 知識がない ▪ 従来の異常検知手法は異常スコアを出せるが、人間が閾値を 設定する必要がある ▪ そこで、両者の良いところを結合したLarge
Vision-Language Model(LVLM)を用いた手法を提案 3
提案手法のイメージ 4
既存法との比較 ▪ 以下の側面で提案法は優れている • Few-shot learning:少量データで学習できる • Anomaly score:異常スコアを出力できる •
Anomaly localization:異常箇所を特定できる • Anomaly judegment:異常あり・無しを判断できる • Multi-turn dialogue:インタラクティブにやり取りできる 5
提案法の構成 6
Image Decoderの入力テキスト ▪ 前ページ構成図の上半分 ▪ テキストは以下のようなものを使う 7
学習データの準備 ▪ データ拡張に使われる技術で異常画像を生成する 8
学習データの準備 ▪ 学習用対話データは以下のように準備する 9
定量的な評価 ▪ 特に少数の学習データに強い 10
定性的な評価 11
定性的な評価 12
まとめ ▪ LVLM基盤モデルを用いた画像異常検知 • これからの発展が期待 13