Rabu, 25 Agustus 2010

Crawling The Web With Java (introduction)


Artikel ini merupakan hasil terjemahan sebuah artikel, yg artikel tsb mengutip dari bab enam buku THE ART OF JAVA, yg ditulis oleh Herbert Schildt dan James Holmes.

Di dalam search engine terdapat database web pages sangat besar hasil dari aggregasi dan indexation dalam beberapa waktu. Sehingga memungkinkan search engine menscan triliyunan webpage dengan memakai 'weather' atau 'astrophysics' tersebut.

Misteri sesungguhnya bukan pada databasing mereka, tapi bagaimana database tersebut terbangun. Nah, disinilah peran web crawler dibutuhkan. Suatu web crawler akan menjelajah internet dan menyimpan setiap halaman web yang dikunjungi. Search engine kemudian memakai software tambahan utk meng-index page, membuat database berisi kalimat suatu webpage.

Fungsi lain dari web crawler adalah utk memeriksa link rusak (broken link) sebuah commercial website. Juga dipakai utk menemukan perubahan sebuah website. Serta dipakai utk mengarsipkan content sebuah website.

Ternyata, membangun sebuah webcrawler tidak semudah membalik telapak tangan. Ada beberapa kerumitan yg menjadi tantangan. Diantaranya yaitu daftar link yg perlu dijaga karena bisa membengkak seiring bertambahbanyaknya webpage yg dikunjungi. Kerumitan lainnya adalah kompleksitas dalam perawatan link absolut dan link relatif. Beruntungnya, Java memiliki fitur yg dapat membantu kita utk mudah mengimplementasikan sebuah webcrawler. Pertama, Java support terhadap networking membuat aktifitas download page menjadi mudah. Kedua, Java support thd proses reguler expression menyederhanakan mencari link. Ketiga, Java Collection Framework menyediakan mekanisme yg dibutuhkan pada proses penyimpanan daftar semua link.

Aplikasi web crawler yg dikembangkan di chapter ini disebut Search Crawler. Ini meng-crawl web, mencari situs yg berisi string yang ditentukan user. Lalu menampilkan URL situs yang sesuai. Meskipun search crawler merupakan utility yg berguna, namun manfaat terbesarnya di sini adalah sebagai starting point utk crawler based application kita.


Share

Tidak ada komentar:

Posting Komentar