Pages

Thursday, April 25, 2013

Web Crawlers {Softskill}



Definisi

Web-crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser.
Crawling adalah proses pengambilan sejumlah besar halaman web dengan cepat kedalam satu tempat penyimpanan lokal dan mengindexnya berdasarkan sejumlah kata kunci. yakni sebuah komponen utama dalam sebuah Search Engine (Mesin Pencari), sebagai Aplikasi Information Retrieval Modern.


Cara Kerja Crawlers

Sebuah script atau program otomatis ini dirancang untuk memindai seluruh halaman Internet, yang menciptakan data indeks. Data ini dikumpulkan oleh web crawler ini kemudian digunakan oleh mesin pencari untuk memberikan link situs yang relevan bagi pengguna ketika mereka melakukan pencarian. Web crawler menangkap banyak hal yang berbeda ketika mereka memindai situs. Informasi diperoleh dari meta tag, konten itu sendiri, dan link, untuk mendapatkan ide yang baik dari apa situs adalah tentang. Search engine juga mencari sebuah file bernama "robots.txt." File ini, jika digunakan dengan benar, akan memberikan beberapa petunjuk web crawler untuk digunakan sebagai scan situs Anda. Jika ada bagian-bagian tertentu dari situs yang seharusnya tidak diindeks, mereka harus dicatat dalam file ini. Setelah mendapat instruksi crawler dari file ini, akan mulai dengan merangkak halaman situs Anda. Ini kemudian akan melanjutkan ke indeks konten, dan kemudian akhirnya akan mengunjungi link di situs Anda. Jika crawler mengikuti link dan tidak menemukan halaman, maka akan dihapus dari indeks. Informasi yang dikumpulkan dari situs Anda kemudian disimpan dalam database, yang kemudian digunakan oleh mesin pencari.
dua fungsi utama web crawler adalah:

1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.
  Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan      
  ketentuan   yang disesuaikan dengan keperluan aplikasi.


Manfaat
  • mesin pencari merupakan tempat kebanyakan orang mencari sesuatu via internet. Menurut survei hampir 90% pengguna internet memakai mesin pencari untuk mencari lokasi tertentu di internet. dan di antara mesin pencari yang ada, google merupakan mesin pencari yang paling banyak digunakan.
  • Sebagian besar pengguna mesin pencari tidak pernah melewatkan dua halaman pertama dari mesin pencari.
  • Sebagian besar (hampir 70%) pengguna mesin pencari tidak pernah klik pada hasil pencarian sponsor. Dengan demikian, hasil pencarian yang organik (secara alami) akan membuat suatu website memperoleh posisi strategis dalam dunia internet.
  • Di negara-negara maju, porsi penjualan yang dilakukan melalui internet sudah hampir mencapai 20% dari keseluruhan transaksi tahunan.
  • Sebuah informasi yang mudah di akses oleh semua orang baik dalam maupun luar negeri.
  • Memudahkan Masyarakat dalam mencari informasi di internet





Contoh dari web crawler itu sendiri yaitu:

1.Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2.HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3.Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4.Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5.YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.Contoh search engine yang menggunakan YaCy ialah Sciencenet, untuk pencarian dokumen di bidang sains.




Sumber 1, 2 3