Senin, 23 Agustus 2010

Pengenalan Web Crawler




Ada beberapa sebutal lain utk web crawler, seperti automatic indexers, bots, web spider, ants, web robot, dan web scutter (dalam FOAF community). Web Crawler adalah program komputer yang menjelajah dunia web (www) dengan metode tertentu, secara otomatis, dan degan model tertentu.

Manfaat web crawler sangat beragam, diantaranya dipakai dalam proses indexation sebuah search engine. Melalui proses web crawler (dsebut web crawling ato spidering), search engine bisa mengisi index mereka melalui hasil penelusuran spidering yg menghasilkan keyword dari dokumen web yang telah dijelajahi. Manfaat lainnya adalah dalam maintenance otomatis sebuah website, yakni dengn jalan mengecek link-link atau memvalidasi kode HTML.

Alur sederhana spidering, pertama web crawler diberi sejumlah seed (bibit) dahulu berupa daftar URL utk dikunjungi mula-mula. Dari seed tersebut, web crawler mengiidentifikasi semua URL yg ditemukan lalu menambahkanx dlm daftar URL yg akan dikunjungi, begitu seterusnya sehingga banyak halaman web yg dikunjungi (secara otomatis).


Aktifitas web crawler merupakan hasil dari beberapa perpaduan ketentuan (policy), yakni:

1. Selection Policy
Total halaman web sampai saat ini sangatlah banyak, dan web crawler sendiri memiliki keterbatasan utk mendownload semua halaman tsb. Sebuah studi tahun 2005 mengemukakan bahwa search engine yg berskala besar meng-index tdk lebih dari 40%-70% dari indexation web. Hal ini membutuhkan sebuah metric of importance (pengukuran tingkat penting) utk prioritasi halaman web. Ada beberapa jenis penyusunan metric, yaitu partial Pagerank calculation, breadth first, backlink count.

Ada juga strategi crawling yg berdasarkan algoritma yg disebut OPIC (on line page importance computation). Dalam OPIC, setiap page diberikan sebuah total inisial "cash" yg didistribusikan merata. Mirip dg Pagerank tapi lebih cepat dan hanya melewati satu langkah. Selain itu, ada yg namanya focused crawler, yaitu web crawler yg mencoba mendowload page yg serupa.

Ada beberapa strategi dalam selection policy, seperti pembatasan link dgn memakai HTML HEAD request sebelum GET request. Hal ini utk mencegah tipe MIME jenis lain. Ada juga yg disebut URL Normalization utk mencegah crawling resource yg sama lebih dari sekali. Caranya degnan konversi URL ke lowercase, pembuangan "." dan ".." segments, dan penambahan deretan slash pada komponen path yg tidk empty.

2. Re-visit Policy
Sebuah web sangat dinamis. Crawling bagian web bisa selama bermingggu2 atau berbulan. Di sisi lain, begitu crawler selesai, dalm sebuah web bxk hal bisa terjadi seperti pembuatan, update (pembaruan), dan penghapusan.

Cho dan Garcia Molina melakukan studi ttg dua re-visitting policies yg sderhana:
a. Uniform Policy: melakukan re-visitting semua page dalam koleksi dgn frekuensi yg sama tanpa memperhatikan rate of change (tingkat perubahan)
b. Proportional Policy: melakukan re-visitting lebih sering page yang frekuensi perubahannya lebih besar.

Hasil studi mereka mengejutkan, dlm perimbangan freshness, uniform policy menunjukkan proportional policy baik dalam simulasi maupun real web crawl. Karena, ketika suatu page sering berubah, crawler akan membuang waktu dgn mencoba me-recrawl terlalu cepat dab masih blm mampu menjaga salinan page yg fresh.

3. A Politeness Policy
Jika single crawler melakukan multiple request tiap detiknya dan/atau mendownload file gede, server akan bekerja keras bertahan dari multiple crawler. Menurut Koster, Biaya dari penggunaan web crawler adalah:
a. network resource (sumber daya jaringan), butuh bandwith amat besar dan dgn paralelism tingkat tinggi.
b. server overload, apalagi jika frekuensi akses yg diberikan server terlalu tinggi.
c. poorly-written crawler, yg dpt membuat server/router mengalami crash
d. personal crawler, jika disebarkan oleh terlalu banyak user, dapat mengacaukan jaringan dan web server.

Sebagian solusinya adalah dgn protocol pelarangan robot, juga dikenal dgn protocol robot.txt, yaitu standar bagi para administrator utk menunjukkan bagian mana di web server mereka yg tidak diakses oleh crawler.

4. A Parallelization Policy
Parallel crawler adalah crawler yg menjalankan multiple process secara parallel. Tujuannya utk memaksimalkan dowload rate sambil memninimalkan pengeluaran tambhan dari paralllelization, serta utk menghindari pengulangan download page yg sama.

Sumber: translasi + editan dari Wikipedia



Share

1 komentar:

  1. Casinos Near Casinos in Harrah's Atlantic City - MapYRO
    Find Casinos Near Harrah's 부산광역 출장마사지 Atlantic City in 2021 여수 출장안마 and Check out 경산 출장마사지 the 경기도 출장안마 closest casinos to Harrah's Hotel in 경상남도 출장마사지 Atlantic City.

    BalasHapus