Sabtu, 09 Oktober 2010

Apa itu Solvent?



Solvent adalah Firefox extension yang membantu kita dalam menulis screenscraper bagi Piggy Bank.

Sebab kita butuh screen scraper

Piggy Bank membutuhkan halaman web utk melekatkan informasi ke dalam yang bisa dimengerti. Format tersebut disebut RDF (Resource Description Framework) dan manfaat utama RDF adalah membuat mechine processing bertambah mudah. Sayangnya, pada hal tersebut, tidak banyak halaman web dilekatkan atau terhubung (link) ke informasi RDF “yang lebih murni” tersebut. Piggy Bank, bagaimanapun juga, mampu mengeksekusi bagian screen scraper pada halaman untuk “mengekstrak” informasi yang dibutuhkan.
Singkat kata, screen scraper memungkinkan kita mengubah halaman web biasa menjadi halaman web biasa ditambah semantic data, dan sehingga membebaskan data dari halaman/situs yang memuatnya.

Fitur utama Solvent
Menulis screen scraper bisa sangat susah dan membosankan, karena itu kita butuh bantuan tool. Dengan Solvent kita bisa:
- Secara interaktif menyoroti bagian-bagian halaman yang ingin di-scrape, secara langsung di browser kita, dan mendapatkan Xpath yang tepat bagi bagian2 tersebut
- Memeriksa DOM pada element yang di-capture dan menentukan nama variabel di situ
- Secara otomatis me-generate kode javascript yang paling menjadi fitur yang umum, seperti iterasi hasil xpath
- Memilih dari template screen scraper yang berbeda berdasarkan tipe halaman yang kita scraping (individual page, multipage, dll...)
- Mengedit dan meng-execute kode scraper secara langsung lewat browser, membuat development cycle fast dan incremental
- Melihat hasil scraping di Piggy Bank walaupun tanpa menginstal scraper sebelumnya
- Menyimpan dan mem-publish scraper dengan metadata yang diperlukan, sehingga pihak yang lain bisa menemukannya
- Melengkapi kita dengan semua cheatsheet yang kita butuhkan untuk javascript, xpath, DOM, RDF, dan tempat dimana kita bisa menemukan RDF vocabularies.

Menulis screen scraper denga Solvent utk Piggy Bank
Screen scraper di Piggy Bank adalah satu bagian kode yg mengekstrak informasi “murni” dari isi halaman web, dan mungkin juga dari halaman yang berhubungan. Screen scraper diterapkan dengan Javascript; pemahaman dasar tentang Javascript dan pemrograman adalah perlu bagi kita agar bisa menulis screen scraper, akan tetapi jangan khawatir jika kita bukan seorang yang ahli.


Sumber: [http://simile.mit.edu]


Share

Tidak ada komentar:

Posting Komentar