より精度を高めていく必要(ファインチューニング)があります。 https://github.com/PaddlePaddle/PaddleOCR Claude 3時点の情報だが、文字の読み取りは出来るけど、 図面の風船番号の位置の認識は、無理かもしれないです。 ▪GenUのご紹介 Generative AI Use Cases JP (略称:GenU) https://github.com/aws-samples/generative-ai-use-cases-jp 11/26
given image and perform the following tasks: 1. Identify all text content present in the image. 2. For each piece of text identified, provide: a) The exact text string b) The coordinates of its bounding box in the format: [top_left_x, top_left_y, bottom_right_x, bottom_right_y] Present the results in a structured format as follows: Text: [text_string] Bounding Box: [top_left_x, top_left_y, bottom_right_x, bottom_right_y] Repeat this for all text elements found in the image. If no text is found, please state "No text detected in the image." ``` このプロンプトを使用することで、Claude 3.5 Sonnetは画像内のテキストを識別し、各テキスト要素の正確な文字列と その周囲のバウンディングボックスの座標を提供します。結果は指定された形式で表示されます。 画像をアップロードした後、このプロンプトを送信すると、Claude 3.5 Sonnetは要求された情報を提供するはずです。 ただし、OCRの精度は画像の品質や複雑さによって異なる場合があることに注意してください。 22/26