Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMによる原著同定

toshi
June 08, 2023

 LLMによる原著同定

LLMを自然言語処理APIとして多用して、邦訳本の原著を同定する試みを発表しました。体感8割以上の精度です。

toshi

June 08, 2023
Tweet

More Decks by toshi

Other Decks in Technology

Transcript

  1. 全体処理フロー 1. 国会図書館APIから指定日に発売の書籍一覧を取得 =>「翻訳者」が設定されてい るものに絞る 2. 原著特定フロー(後述) 3. 原著の要約&レビューから情報抽出 =>

    yaml出力 pros & cons keywords related books レビューが多い場合は分割実行したyamlを最後にLLMでmerge 4. yamlからmarkdownを生成 => ブログに自動投稿 LLM福岡 ChatGPT LT会 by @ginyu_pro 8
  2. NameFinder1 カナ著者名の英字原表記を直接LLMにきいてしまう。一般的な名前ならかなり上手く いく。 Question: translate person name "{ja_name}" to original

    language. Please list up all possible answers, variations, with low confidence. The answer name should be standardized as format like "<first name> <family name>" for western name. desired answer format: string array in JSON format. example: ["Thomas Edison", "Albert Ainstein"] Answer: LLM福岡 ChatGPT LT会 by @ginyu_pro 10
  3. NameFinder2 sourceに、google検索結果文を入れる。 運が良ければそこのどこかにオリジナルの著者名が書いてある。 Question: translate author name "{ja_author}" to original

    language. Please list up all possible answers, based on given source text. desired answer format: JSON like {{"names": ["name1","name2"], "contains": true}} - names(list[str]): estimated author names list - express each name in standard format: "<first name> <family name>" - contains(bool): whether if you estimated upon given text or not source text: {source} Answer: LLM福岡 ChatGPT LT会 by @ginyu_pro 11
  4. AuthorFinder book infoに、邦訳の要約や書誌情報を入れる 運が良ければそこのどこかにオリジナルの著者名が書いてある。 I show you a book information

    written in Japanese. Please answer author names with text array JSON format. Answer example: ["Thomas Edison"] {book_info} LLM福岡 ChatGPT LT会 by @ginyu_pro 12
  5. NameCorrector 氏名の標準化・表記揺れ解消。書誌情報APIにクエリするときの前処理に使う。 please rewrite given names in the manner of:

    <first name> <family name> good: "John Smith" bad: "Smith, John" desired output format: JSON string list (ex. ["Nancy McDonald", "Thomas Edison"]) names: {names} LLM福岡 ChatGPT LT会 by @ginyu_pro 13
  6. BookIdentifierByTitle 本のタイトル類似度から原著を推定する。 I show you a Japanese-translated book title and

    summary, and some book title list, which must contain original book title. Please list up possible, probable answers even with low confidence. Answer count should be {min_answer} at least. Answer format should be only its indexes (ex. [0], [1, 7]). Please mind that Index starts with 0. If it's difficult to choose, return all indexes. Japanese title: "{{ja_title}}" Japanese summary: """ {{ja_summary}} """ title list: {{titles}} # desired answer format: number list in JSON format(example: "[1,3]", "[0]") LLM福岡 ChatGPT LT会 by @ginyu_pro 14
  7. BookIdentifierByTitleAndSummary 本のタイトル&要約の類似度から原著を推定する。 I show you a book description in Japanese,

    and {n_samples} English descriptions. One of them correspond to Japanese one. Please estimate it. Answer just sample index(starting from 0), without any sentence. # desired answer format: integer # Japanese description: {ja_description} # English description samples: {en_descriptions} LLM福岡 ChatGPT LT会 by @ginyu_pro 15
  8. Reporter レビュー文から構造的に情報を抽出する。 please do 3 tasks based on the text

    below. Answer format should be YAML. text: \"\"\" {reviews} \"\"\" tasks: - task1: describe pros and cons. - task2: list up technical terms or jargons with short description and difficulty level(1-5) - task3: list up related book titles referred in reviews desired answer format: \"\"\" pros: - "XXX" - "YYY" - ... LLM福岡 ChatGPT LT会 by @ginyu_pro 16