StreamlitとLangChainを使った表画像OCRアプリの実装

StreamlitとLangChainを使った表画像OCRアプリの実装 2024/10/26 機械学習の社会実装勉強会第40回熊懐葵

目次 • 背景 • 課題 • 実装のモチベーション • 実装 •
実装のイメージ • 実装の説明 • 応用例: 財務諸表のOCR • まとめ

背景データ入力…業界や職種問わず広く行われている基本的な業務紙ベース・表画像データ(デジタル) 手入力事務 • 申請書 • 領収書
医療 • カルテ • 診断書会計・監査 • 財務資料 • 取引記録研究 • 実験記録 • 観察記録

課題作業者の負担・ミス → OCR(光学文字認識)やAIツールを用いた自動化紙ベース・表画像データ(デジタル) OCR・AI 課題 • 精度：形が似ている文字の読み取りミス(0とOや1とIなど)
• フォーマット：フォーマットを予め設定する必要がある

モチベーション StreamlitとLangChainを使った表画像OCRアプリを作る LLMを使ったOCRを試したい • 精度：ChatGPTなど、画像読み込みできるLLMがある • フォーマット：プロンプトで柔軟に設定できる UIも整備して、ユーザーが試せるようにしたい • ユーザー目線のフィードバックがもらいやすい
• 課題は性能面なので、ひとまず小規模なもので良い

Streamlit・LangChainとは LangChain • LLMを使ったアプリを作れるフレームワーク • コンポーネントを組み合わせて、柔軟にLLMを構築できる Streamlit • PythonのみでWeb上で動くアプリを作れるフレームワーク •
少ないコードでアプリのプロトタイピングができる StreamlitとLangChainを使った表画像OCRアプリを作る…

Streamlitの使用感 ↓ (main.py) ↓python run main.py (例 http://localhost:8501 で検索)

表画像OCRアプリのイメージ表画像元の画像表画像をアップロード読み込んだデータを手直し CSVファイルをダウンロード読み込みデータ
(編集可) 表画像読み込み

実装１: 表画像をアップロード、表示 • 表画像をアップロードドラック&ドロップ

実装１: 表画像をアップロード、表示 • 表画像を読み込み→サイドバーに表示 • 読み込んだ画像をbase64エンコードアップロードした表画像が表示される LLMに渡すため byte型→string型に変換

実装２: 表画像をLLMに読み込ませる • LLM: LangChainのLCEL記法 LLMを定義プロンプト + モデルプロンプト(prompt)
• system プロンプト(テキスト) • human プロンプト(テキスト+画像) モデル(chat) • モデル名 • パラメータ

実装２: 表画像を生成AIに読み込ませるプロンプト • system プロンプト(テキスト) • human プロンプト(テキスト+画像) プロンプト作成用の
クラスを使う

実装２: 表画像を生成AIに読み込ませるプロンプト • system プロンプト(テキスト) • human プロンプト(テキスト+画像) 出力をpandas.Dataframe
形式に指定データURL ↓ data:[リソースの種類][;base64],{データ}

実装２: 表画像を生成AIに読み込ませるプロンプトモデル • モデル名 • パラメータ実行(invoke) →
pandas.Dataframeを取得表画像読み込み・データ生成AI完成

実装３: 読み込んだデータを手直しできるようにする ←比較→ 表画像 Dataframe

実装３: 読み込んだデータを手直しできるようにする • 手打ちで修正できるセルを選択入力

実装４: CSVファイルにダウンロード • CSV変換・ダウンロードボタン設定クリックするとダウンロード • Excelなどに直接コピペもできる

表画像OCRアプリのイメージ表画像元の画像表画像をアップロード読み込んだデータを手直し CSVファイルをダウンロード読み込みデータ
(編集可) 表画像読み込み

応用例：財務諸表財務諸表を分析する業務がある • 監査法人の監査業務 • 経営・会計コンサルのコンサルティング業務 • M&A関連会社の価値評価・リスク評価財務諸表とは…会社から公開された財務資料 ↑
社内の帳簿・明細社内会計部門 … 外部財務三表集計・公開

応用例：財務諸表試しに貸借対照表を読み込ませてみる何やらエラーが起こっている

応用例：財務諸表 LLMの出力を調べてみると… 数字につくカンマとセル間のカンマが混ざってエラーを起こしているプロンプトを改善

応用例：財務諸表データフレームを取得できた

応用例：財務諸表データフレームを取得できた結果↓ 「資産の部」抜け「前払費用」→ 「繰延税金資産」数字は全てあっていた

応用例：財務諸表データフレームを取得できた結果↓ 丸ごと抜けている

応用例：財務諸表特に数値部分のOCRの精度が高い間違え方の原因が掴みにくい (プロンプトでどう指示すれば良い…？) ？何回か試してみた感想行名の抜け・誤字処理時間は少し長い(約10秒)

表画像OCRアプリの実装まとめ客観的な評価はあまりできていない(精度・使いやすさ) ユーザー目線のFBをもらいつつ、機能改善していくことが重要満足いく精度でない・フォーマットの設定が手間 StreamlitとLangChainを使った表画像OCRアプリを作る • PythonのみでWeb上で動くアプリを実装できた • プロンプトを調整することで表画像を読み込むことができた

ご清聴ありがとうございました

おまけ：PDFの読み込み PDF形式の資料は追加の処理が必要 PDF→Image

おまけ：PDFの読み込み複数ページ対応 PDF形式の資料は追加の処理が必要

おまけ：ウェイティングリスト • 手書き • 丸囲み手書きOK 丸囲みNG

StreamlitとLangChainを使った表画像OCRアプリの実装

StreamlitとLangChainを使った表画像OCRアプリの実装

熊懐葵

More Decks by 熊懐葵

Other Decks in Technology

Featured

Transcript

StreamlitとLangChainを使った表画像OCRアプリの実装 2024/10/26 機械学習の社会実装勉強会第40回熊懐葵

目次 • 背景 • 課題 • 実装のモチベーション • 実装 •

背景データ入力…業界や職種問わず広く行われている基本的な業務紙ベース・表画像データ(デジタル) 手入力事務 • 申請書 • 領収書

課題作業者の負担・ミス → OCR(光学文字認識)やAIツールを用いた自動化紙ベース・表画像データ(デジタル) OCR・AI 課題 • 精度：形が似ている文字の読み取りミス(0とOや1とIなど)

Streamlit・LangChainとは LangChain • LLMを使ったアプリを作れるフレームワーク • コンポーネントを組み合わせて、柔軟にLLMを構築できる Streamlit • PythonのみでWeb上で動くアプリを作れるフレームワーク •

Streamlitの使用感 ↓ (main.py) ↓python run main.py (例 http://localhost:8501 で検索)

目次 • 背景 • 課題 • 実装のモチベーション • 実装 •

表画像OCRアプリのイメージ表画像元の画像表画像をアップロード読み込んだデータを手直し CSVファイルをダウンロード読み込みデータ

実装１: 表画像をアップロード、表示 • 表画像をアップロードドラック&ドロップ

実装１: 表画像をアップロード、表示 • 表画像を読み込み→サイドバーに表示 • 読み込んだ画像をbase64エンコードアップロードした表画像が表示される LLMに渡すため byte型→string型に変換

実装２: 表画像をLLMに読み込ませる • LLM: LangChainのLCEL記法 LLMを定義プロンプト + モデルプロンプト(prompt)

実装２: 表画像を生成AIに読み込ませるプロンプト • system プロンプト(テキスト) • human プロンプト(テキスト+画像) プロンプト作成用の

実装２: 表画像を生成AIに読み込ませるプロンプト • system プロンプト(テキスト) • human プロンプト(テキスト+画像) 出力をpandas.Dataframe

実装２: 表画像を生成AIに読み込ませるプロンプトモデル • モデル名 • パラメータ実行(invoke) →

実装３: 読み込んだデータを手直しできるようにする ←比較→ 表画像 Dataframe

実装３: 読み込んだデータを手直しできるようにする • 手打ちで修正できるセルを選択入力

実装４: CSVファイルにダウンロード • CSV変換・ダウンロードボタン設定クリックするとダウンロード • Excelなどに直接コピペもできる

表画像OCRアプリのイメージ表画像元の画像表画像をアップロード読み込んだデータを手直し CSVファイルをダウンロード読み込みデータ

応用例：財務諸表財務諸表を分析する業務がある • 監査法人の監査業務 • 経営・会計コンサルのコンサルティング業務 • M&A関連会社の価値評価・リスク評価財務諸表とは…会社から公開された財務資料 ↑

応用例：財務諸表試しに貸借対照表を読み込ませてみる何やらエラーが起こっている

応用例：財務諸表 LLMの出力を調べてみると… 数字につくカンマとセル間のカンマが混ざってエラーを起こしているプロンプトを改善

応用例：財務諸表データフレームを取得できた

応用例：財務諸表データフレームを取得できた結果↓ 「資産の部」抜け「前払費用」→ 「繰延税金資産」数字は全てあっていた

応用例：財務諸表データフレームを取得できた結果↓ 丸ごと抜けている

応用例：財務諸表特に数値部分のOCRの精度が高い間違え方の原因が掴みにくい (プロンプトでどう指示すれば良い…？) ？何回か試してみた感想行名の抜け・誤字処理時間は少し長い(約10秒)

目次 • 背景 • 課題 • 実装のモチベーション • 実装 •

ご清聴ありがとうございました

おまけ：PDFの読み込み PDF形式の資料は追加の処理が必要 PDF→Image

おまけ：PDFの読み込み複数ページ対応 PDF形式の資料は追加の処理が必要

おまけ：ウェイティングリスト • 手書き • 丸囲み手書きOK 丸囲みNG