Top > Nougat
  • The added line is THIS COLOR.
  • The deleted line is THIS COLOR.
  • Go to Nougat.

[[OCR]] > [[Nougat]]

- https://facebookresearch.github.io/nougat/
- https://github.com/facebookresearch/nougat
- https://arxiv.org/abs/2308.13418

>
pip install nougat-ocr
>
nougat test.pdf --out .

(Python 3.11、pip 23.2.1 の No GPU で動作するの確認)
>
WARNING:root:No GPU found. Conversion on CPU is very slow.


*. [#z85eb112]

- 数式を含むスキャン画像のPDFをOCRしてマークダウン形式に変換できる。Nougatを試す
--  https://note.com/hamachi_jp/n/n7f5f35b38768
>
!pip install nougat-ocr
>
!nougat /content/Attention_Is_All_You_Need.pdf --out .

- https://twitter.com/yoya/status/1698697489807986913
>
AIDB
@ai_database
>
論文の画期的なOCR技術『Nougat』をMetaが開発しました。数式や文章がぐにゃぐにゃに曲がった画像であっても、マークアップ言語に高品質で変換します。
新しい論文だけでなく、電子データのない古い書類などの解析にも役立つことが期待されます。
>
○ Lukas Blecher et al. Nougat: Neural Optical Understanding for Academic Documents
>
地味で厄介な問題である”論文PDF”のテキスト解析に取り組む際の、新たな相棒が登場しました。
>
■これまでのPDFのOCR(光学式文字認識)
① 文字や単語を検出するのはある程度得意
② それらの関係性を理解するのは苦手
>
■Noughtの特徴
① 文字の相対的な位置を正確に認識できる
② 特に数学的な表現を認識し整理することに長けている
>
■技術的な方法論
① arXiv、PubMed Central、Industry Documents Libraryから収集されたデータで訓練&実験
② Swin Transformer(画像分野のTransformer)を活用
③ デコーダが埋め込みをトークンのシーケンスに変換
④ エンコーダ-デコーダのアーキテクチャを採用
⑤ 文書イメージを潜在的な埋め込みに変換
⑥ 総パラメータ数は350M
>
論文の解析に焦点を当てて開発されたツールですが、数式が多用されている技術書や仕様書にも応用が見込まれます。

Reload   Diff   Front page List of pages Search Recent changes Backup Referer   Help   RSS of recent changes