Upgrade to Pro — share decks privately, control downloads, hide ads and more …

図面中の風船番号の読み取りについて。Amazon RekognitionとClaude 3.5...

図面中の風船番号の読み取りについて。Amazon RekognitionとClaude 3.5 Sonnetの画像認識の検証

Bedrock Night in 大阪(JAWS-UG AI/ML×大阪×東京支部コラボ)
https://jawsug-ai.connpass.com/event/322964/
LT登壇「図面中の風船番号の読み取りについて。Amazon RekognitionとClaude 3.5 Sonnetの画像認識の検証」の発表資料です。

Hideyuki Nagata

July 30, 2024
Tweet

More Decks by Hideyuki Nagata

Other Decks in Programming

Transcript

  1. 図面中の風船番号の 読み取りについて Amazon Rekognitionと Claude 3.5 Sonnetの 画像認識の検証 Bedrock Night

    in 大阪 (JAWS-UG AI/ML×大阪×東京支部コラボ) 2024/07/30(火) 長田英幸 Image of a silver bird flying swiftly with the power of AI / Amazon Titan Image Generator G1 01/26
  2. 目次 • 自己紹介 • 会社紹介 • 業務でも生成AIに携わってみたい! • WebパーツカタログDX「座標鳥」 •

    専門用語の説明 • Webパーツリスト座標鳥に必要なデータ • 図面の画像と座標鳥xml • 自動的に取得できない場合は・・・ • AWS SAさんとお話する機会にて • 座標鳥xml取得の完全自動化の要件 • Amazon Rekognitionの場合 • Amazon Rekognitionの結果 • Amazon Textractの場合 • Amazon Textractの結果 • Amazon BedrockのClaude 3.5 Sonnetの場合 • Claude 3.5 Sonnetの結果 • 指示が悪かったです。 • プロンプトで試行錯誤 • Claude 3.5 Sonetにプロンプトを相談 • 回答されたプロンプトの詳細 • 回答されたプロンプトで試す • 回答されたプロンプトで試した結果 • 結果は失敗でした。 • まとめ 合計 26スライド 02/26
  3. AWS SAさんとお話する機会にて ▪風船番号の位置情報をAWSサービスで自動生成する件 Amazon Rekognitionの他に、同様のサービスでAmazon Textractがある。 https://aws.amazon.com/jp/textract/ マネージドサービスなので、より精度を求めるなら、オープンソース PaddleOCRをAmazon SageMakerで学習させて、

    より精度を高めていく必要(ファインチューニング)があります。 https://github.com/PaddlePaddle/PaddleOCR Claude 3時点の情報だが、文字の読み取りは出来るけど、 図面の風船番号の位置の認識は、無理かもしれないです。 ▪GenUのご紹介 Generative AI Use Cases JP (略称:GenU) https://github.com/aws-samples/generative-ai-use-cases-jp 11/26
  4. Amazon BedrockのClaude 3.5 Sonnetの場合 日経クロステック AWSが東京リージョンで「Claude 3」を提供へ、生成AIの 強化を発表 https://xtech.nikkei.com/atcl/nxt/column/18/02875/062000003/ Anthropic社の

    Claude 3.5 Sonnetモデル 米国東部 (バージニア北部)リージョン Claude 3.5 Sonnet は、画像の処理、特にチャートとグラフの解釈において優れ た機能を発揮します。不完全な画像からテキストを正確に書き起こします。これ は、小売、物流、金融サービスなどの業界の中核的な機能であり、テキストのみ の場合と比較して、グラフィックやイラストからより多くのインサイトを得られ るようにします。 Boto3(AWS SDK for Python)で処理を回して、 S3に成形した、座標鳥xmlの出力を想定 17/26
  5. 回答されたプロンプトの詳細 以下のようなプロンプトを使用して、Claude 3.5 SonnetのOCR機能で画像内の文字列とそのBounding Boxの位置を取 得できます: ``` Please analyze the

    given image and perform the following tasks: 1. Identify all text content present in the image. 2. For each piece of text identified, provide: a) The exact text string b) The coordinates of its bounding box in the format: [top_left_x, top_left_y, bottom_right_x, bottom_right_y] Present the results in a structured format as follows: Text: [text_string] Bounding Box: [top_left_x, top_left_y, bottom_right_x, bottom_right_y] Repeat this for all text elements found in the image. If no text is found, please state "No text detected in the image." ``` このプロンプトを使用することで、Claude 3.5 Sonnetは画像内のテキストを識別し、各テキスト要素の正確な文字列と その周囲のバウンディングボックスの座標を提供します。結果は指定された形式で表示されます。 画像をアップロードした後、このプロンプトを送信すると、Claude 3.5 Sonnetは要求された情報を提供するはずです。 ただし、OCRの精度は画像の品質や複雑さによって異なる場合があることに注意してください。 22/26
  6. まとめ • 業務としては、Amazon RekognitionもしくはAmazon Textractをより比較検討して、 プログラム開発を進めた方が良さそう。 • 上記で精度が難しい場合は、教えていただいたPaddleOCRを試していく。 • 生成AIで画像認識させる場合は、プロンプトの工夫が出来れば、もっと良い結果が出るのでしょうか。

    • 弊社の全社員が「Generative AI Use Cases JP (略称:GenU)」を通して生成AIに親しみ、 生成AIの「Biz→Dev→ML」が実現できるよう、構築作業を進めていきます。 • 「AWSジャパン生成AI実用化推進プログラム」も気になってます。 オレ達はようやくのぼりはじめたばかりだからな このはてしなく遠い『生成AI』坂をよ! ~未完~ 26/26