How to Extract Text Contents from PDF (part 1/3)
Loading...
3,905
Loading...
Uploader Comments (yusukeshinyama)
see all
All Comments (7)
-
I can you please use this to fix my automobile insurance papers? My insurer forgot to send me the current ones and the date is expired, I need them to get out of my ticket. I have to go to court in sex hours
-
oh, did PDF mean fun to you until you watched this vid?
-
Thanks for demonstration! What keyboard are you using? :)
-
お礼が遅くなりました。ベジェ曲線として保存されているというこ
とですね。パーサとかテキスト形式のベクターフォーマットに変換 するツールとかあればなあ。 -
very boring video..
Loading...
テキストじゃなくて線とか円を取り出すには?
linus19741018 11 months ago
@linus19741018 ページのcontent streamの中に m とか S とかいうコマンドが書かれています。これが図形の描画指令なので、これを取り出せばOKです。PDFはPostScriptと同様の描画モデルを使っていて、直線や曲線、円を区別しません。これらはすべて3次のベジエ曲線で表現されています。ですが、色の指定や線の太さ、クリッピングなどがあるので、データを取り出しても実際の画像を描画するのは結構大変です。
yusukeshinyama 11 months ago