Top > Nougat

OCR > Nougat

pip install nougat-ocr

nougat test.pdf --out .

(Python 3.11、pip 23.2.1 の No GPU で動作するの確認)

WARNING:root:No GPU found. Conversion on CPU is very slow.

.

  • 数式を含むスキャン画像のPDFをOCRしてマークダウン形式に変換できる。Nougatを試す
  • https://twitter.com/yoya/status/1698697489807986913

    AIDB @ai_database

    論文の画期的なOCR技術『Nougat』をMetaが開発しました。数式や文章がぐにゃぐにゃに曲がった画像であっても、マークアップ言語に高品質で変換します。 新しい論文だけでなく、電子データのない古い書類などの解析にも役立つことが期待されます。

    ○ Lukas Blecher et al. Nougat: Neural Optical Understanding for Academic Documents

    地味で厄介な問題である”論文PDF”のテキスト解析に取り組む際の、新たな相棒が登場しました。

    ■これまでのPDFのOCR(光学式文字認識) ① 文字や単語を検出するのはある程度得意 ② それらの関係性を理解するのは苦手

    ■Noughtの特徴 ① 文字の相対的な位置を正確に認識できる ② 特に数学的な表現を認識し整理することに長けている

    ■技術的な方法論 ① arXiv、PubMed Central、Industry Documents Libraryから収集されたデータで訓練&実験 ② Swin Transformer(画像分野のTransformer)を活用 ③ デコーダが埋め込みをトークンのシーケンスに変換 ④ エンコーダ-デコーダのアーキテクチャを採用 ⑤ 文書イメージを潜在的な埋め込みに変換 ⑥ 総パラメータ数は350M

    論文の解析に焦点を当てて開発されたツールですが、数式が多用されている技術書や仕様書にも応用が見込まれます。


Reload   Diff   Front page List of pages Search Recent changes Backup Referer   Help   RSS of recent changes
Last-modified: Tue, 05 Sep 2023 13:13:08 JST (239d)