Definisi
Web-crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser.
Crawling adalah proses pengambilan sejumlah besar halaman web dengan cepat kedalam satu tempat penyimpanan lokal dan mengindexnya berdasarkan sejumlah kata kunci. yakni sebuah komponen utama dalam sebuah Search Engine (Mesin Pencari), sebagai Aplikasi Information Retrieval Modern.
Crawling adalah proses pengambilan sejumlah besar halaman web dengan cepat kedalam satu tempat penyimpanan lokal dan mengindexnya berdasarkan sejumlah kata kunci. yakni sebuah komponen utama dalam sebuah Search Engine (Mesin Pencari), sebagai Aplikasi Information Retrieval Modern.
Cara Kerja
Crawlers
Sebuah script atau program otomatis ini dirancang untuk
memindai seluruh halaman Internet, yang menciptakan data indeks. Data ini
dikumpulkan oleh web crawler ini kemudian digunakan oleh mesin pencari untuk
memberikan link situs yang relevan bagi pengguna ketika mereka melakukan
pencarian. Web crawler menangkap banyak hal yang berbeda ketika mereka memindai
situs. Informasi diperoleh dari meta tag, konten itu sendiri, dan link,
untuk mendapatkan ide yang baik dari apa situs adalah tentang. Search engine
juga mencari sebuah file bernama "robots.txt." File ini, jika
digunakan dengan benar, akan memberikan beberapa petunjuk web crawler untuk
digunakan sebagai scan situs Anda. Jika ada bagian-bagian tertentu dari situs
yang seharusnya tidak diindeks, mereka harus dicatat dalam file ini. Setelah
mendapat instruksi crawler dari file ini, akan mulai dengan merangkak halaman
situs Anda. Ini kemudian akan melanjutkan ke indeks konten, dan kemudian
akhirnya akan mengunjungi link di situs Anda. Jika crawler mengikuti link dan
tidak menemukan halaman, maka akan dihapus dari indeks. Informasi yang
dikumpulkan dari situs Anda kemudian disimpan dalam database, yang kemudian
digunakan oleh mesin pencari.
dua fungsi utama web crawler adalah:
1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten
akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
2. Melakukan proses kunjungan/visit secara rekursif.
Dari setiap hyperlink, Web crawler akan
menjelajahinya dan melakukan proses berulang, dengan
ketentuan yang
disesuaikan dengan keperluan aplikasi.
Manfaat
- mesin
pencari merupakan tempat kebanyakan orang mencari sesuatu via internet.
Menurut survei hampir 90% pengguna internet memakai mesin pencari untuk
mencari lokasi tertentu di internet. dan di antara mesin pencari yang ada,
google merupakan mesin pencari yang paling banyak digunakan.
- Sebagian
besar pengguna mesin pencari tidak pernah melewatkan dua halaman pertama
dari mesin pencari.
- Sebagian
besar (hampir 70%) pengguna mesin pencari tidak pernah klik pada hasil
pencarian sponsor. Dengan demikian, hasil pencarian yang organik (secara
alami) akan membuat suatu website memperoleh posisi
strategis dalam dunia internet.
- Di
negara-negara maju, porsi penjualan yang dilakukan melalui internet sudah
hampir mencapai 20% dari keseluruhan transaksi tahunan.
- Sebuah
informasi yang mudah di akses oleh semua orang baik dalam maupun luar
negeri.
- Memudahkan
Masyarakat dalam mencari informasi di internet
Contoh dari web crawler itu sendiri yaitu:
1.Teleport Pro
Salah satu software web crawler untuk
keperluan offline browsing. Software ini sudah cukup lama popular, terutama
pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini
berbayar dan beralamatkan di http://www.tenmax.com.
2.HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro,
HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar
dapat dilihat secara offline. Yang menarik software ini free dan dapat di
download pada website resminya di http://www.httrack.com
3.Googlebot
Merupakan web crawler untuk
membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan
orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya,
sebagian bandwidth anda akan tersita karena proses crawling ini.
4.Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka
search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang
diakuisisi oleh Yahoo!.
5.YaCy
Sedikit berbeda dengan web crawler lainnya
di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop
dengan menggunakan java,
dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers).
Tiap-tiap peer di
share dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central. Contoh
search engine yang menggunakan YaCy ialah Sciencenet, untuk
pencarian dokumen di bidang sains.