Hardcopy yang discan formatnya bukan format ‘word’, sejatinya hanyalah kumpulan pixel-pixel.
Kumpulan pixel-pixel ini bisa dirubah ke format ‘word’ dengan bantuan software OCR, asal hasil scan resolusinya mencukupi (minimal 300 dpi) dan scannya dengan cara yang baik dan dari sumber yang baik. Setelah dirubah ke format word, maka disimpan dalam bentuk file text (txt, word, rtf) baru bisa dicari kandungan kata-kata nya.

Tanya – Erwin (Jakarta)@WorleyParsons

Saya punya File PDF yg asal nya dari Hardcopy yg di Scan, masalah nya di dalam file tersebut saya ingin mencari Suatu ‘Word’ tertentu, tapi sayang tidak di kenal oleh System PDF…nah untuk ini saya ingin minta tolong ke teman teman..bagaimana cara mencari Suatu’Word’ dalam file yg di buat ke PDF dan asal nya dari Hardcopy yg di scan ( Bukan Hasil convert Word ke PDF ).

Tanggapan 1 – Aroon Pardede

Pak Erwin,

Kalau menggunakan Adobe Acrobat Professional (bukan yang reader ya….), bisa menggunakan fitur OCR (optical character recognition). Caranya, buka file PDF bapak dengan menggunakan Adobe Acrobat Professional (saya pakai versi 8), lalu klik Document, klik OCR Text Recognition, Recognize text using OCR.

Dengan cara ini, acrobat akan mencari karakter2 huruf, dan akan menterjemahkannya menjadi huruf2 yang dapat dikenal dan kemudian dapat di search, copy-paste, dll. Namun, keberhasilan OCR ini tergantung dari kualitas scan dokumen PDF bapak. Bila kualitasnya cukup bagus, dalam artian huruf2 di dokumen dapat terbaca dengan cukup jelas, maka kemungkinan berhasil cukup besar; akan tetapi, kalau kualitas scannya rendah, maka OCR kurang efektif mengindentifikasi huruf2 yang terdapat dalam dokumen PDF bapak.

Tanggapan 2 – Galindra Mardanny@pertamina-up2

Ya jelas ndak bisa to, mas Erwin

Hardcopy yang discan akan dikenali oleh PDF sebagai image,
Bukan text page. Untuk itu, Anda harus menggunakan OCR (optical Character Recognition) software.
Ada yang gratis seperti gocr (www.jocr.org) sampai yang komersial,
Biasanya sih bawaan scanner yang bagus (baca : mahal)
Scanner HP biasanya mem-bundle software OCR tersebut.
OCR akan membaca huruf dan angka (tanda baca juga lho) halaman demi halaman,
Dan memformatnya ke dalam word atau pdf (seingat saya rtf juga bisa)
Dari situ, file akan terdiri dari text bukan image, sehingga bis dicari ‘word’-nya.

Tanggapan 3 – Hendrikawan Mulyadi@pertamina-up2

Melengkapi statement mas Galin nih,

Betul sekali apa yang diakatakan mas galin mengenai OCR dan software yang di bundle di printer PSC, tapi harganya ndak mahal kok. Desember kemarin saya beli printer PSC C****N type P***MA cuma Rp.900 rb kok. Fiturnya lumayan kumplit, bisa direct printing dari USB or MMC, resolusi scanner nya lumayan tinggi (saya lupa berapa), bisa foto copy pula.
Kemaren pun saya ke jakarta ternyata sudah banyak brand laing yang membundle software tersebut, harga PSC nya pun ga mahal2 amat, rata2 di bawah sejuta lah.

Tanggapan 4 – Galindra Mardanny@pertamina-up2

Betul, mas

Yang mahal scanner-nya, single purpose scanner, Kalau multi fungsi mah lebih murah, menurut analisis majalah TI,

Harganya murah karena konstruksinya kompak, dan untuk mengganti printer-scanner terpisah dengan cepat. Opini saya masih terbatas pada single purpose scanner,

Tanggapan 5 – Gunawan Raharjo

Sepanjang yang saya tahu jelas memang tidak bisa, karena sebenarnya format pdf hasil scan merupakan format jpg yg diconvert ke pdf.Jadi menu ‘find’ jelas tidak mampu mengenali word karena isinya semua dikenali sebagai ‘picture’ atau ‘obyek’ dan bukan ‘word’.

Tanggapan 6 – Aroon Pardede

Hmm… pengalaman saya tidak begitu. Seperti yang sudah saya jelaskan di email pertama, dengan menggunakan Adobe Acrobat Professional (BUKAN versi reader), saya bisa membuat image hasil scan tersebut di kenali sebagai karakter, yang kemudian bisa di search, copy-paste, dll. Memang, karakter di dalam image tersebut tidak serta merta menjadi halus seperti text.

Tapi, sekali lagi, keberhasilan tool OCR mengenali karakter di dalam Adobe Acrobat Professional tergantung dari kualitas image hasil scannya.
Kalau dokumennya di scan dengan resolusi rendah (dibawah 200 dpi, misalnya), maka kemungkinannya OCR tidak akan sempurna menterjemahkan image menjadi karakter….

BTW, melalui japri pak Erwin juga telah mengkonfirmasikan bahwa beliau telah mampu melakukan hal yang saya sebut diatas. Bagaimana pak Erwin, boleh di share saja pengalaman pak Erwin ke milis kita ini?

Tanggapan 7 – Erwin (Jakarta)@WorleyParsons

Saya beritahukan..Saya sudah Berhasil Meng-Index..Word di File PDF..sekali lagi terima kasih atas masukan berharga nya.

Tanggapan 8 – samsoni

Coba pakai software acrobat (bukan yg reader), download aja yg trial-nya di www.adobe.com, atau kalau mau sekalian aja dikonvert ke word dg bantuan software OCR (optical character recognition) seperti abbyy finereader, coba aja yg trial-nya di http://www.abbyy.com/
moga membantu,

Tanggapan 9 – Eko Prasetyo

Hardcopy yang discan formatnya bukan format ‘word’, sejatinya hanyalah kumpulan pixel-pixel.
kumpulan pixel-pixel ini bisa dirubah ke format ‘word’ dengan bantuan software OCR, asal hasil scan resolusinya mencukupi (minimal 300 dpi) dan scannya dengan cara yang baik dan dari sumber yang baik. Setelah dirubah ke format word, maka disimpan dalam bentuk file text (txt, word, rtf) baru bisa dicari kandungan kata-kata nya.

Tanggapan 10 – Krishna Hartono@wijayapura

Pak Erwin,

Menurut saya untuk pencarian word pada pdf hasil scan berdasarkan pengalaman saya tidak bisa sebab scan akan diembedd menjadi image. Image tidak dibisa di uraikan menjadi per kata. Cara lain adalah image tersebut di convert ke dengan bantuan OCR Software, biasanya software tersebut di bundle dengan scanner-nya.
Mudah-mudahan cukup membantu.

Tanggapan 11 – Sidiq Kurniawan@wintermar

Pak Erwin,

Dokumen hasil scan Pak Erwin tersebut tidak dapat di search per kata karena setiap halaman dikenali sebagai gambar oleh PDF. Supaya tidak dikenali sebagai gambar maka sebelum diconvert sebagai PDF, dokumen hasil scan di ‘recognize’ dahulu menggunakan recognizing software semacam OCR atau Omnipage. Pada versi tertentu (saya lupa versi berapa) recognizing software dapat pula bekerja pada file2 yang sudah dalam format PDF. Tinggal nanti di save as ulang saja. Cmiiw.