Mendokumentasikan Forum dengan Web Grabbing

Mengikuti  suatu forum di internet sudah jadi semacam kebutuhan penting bagi sebagian besar orang. Banyak ilmu yang didapat dengan saling knowledge-sharing di sana. Kadang bahkan forum-forum yang spesifik tentang topik tertentu (IT, kesehatan, teknik, dsb) justru menjadi ‘malaikat penolong’ saat seseorang membutuhkan penjelasan tentang hal-hal teknis. Naa, jadinya sering kita berpikir, dengan koneksi internet yang masih ‘timbul tenggelam’ kapan ya bisa mendokumentasikan semua pengetahuan itu secara offline. Menyimpan satu persatu halaman tentu bukan solusi praktis.

Sebagai informasi, di forum KIOS terdapat lebih dari 32.860 posts (3.864 threads). Jumlah yang cukup banyak dan belum tentu selesai dibaca dalam waktu 1-2 bulan.
Nah, jika materi yang sangat berharga tersebut dapat diakses secara off-line tentu dapat mereduksi atau meminimalkan biaya yang harus dikeluarkan anggota/pengunjung forum, yaitu tidak perlu mengeluarkan biaya akses Internet, atau dapat meminimalkan biaya akses Internet yaitu hanya sebatas update.

Selain itu, forum ini memiliki anggota lebih dari 10.972 orang. Jika semua anggota secara bersamaan melakukan akses ke forum ini tentu akan menghabiskan bandwidth atau setidak-tidaknya akan menurunkan performa forum ini secara drastis. Jangankan semua anggota, 50%, 40%, 25%, 10%, bahkan 5% anggota saja akan menurunkan performa forum ini secara drastis.

Untuk mengatasi hal tersebut tidak ada salahnya kalau forum dikemas pula dalam bentuk CD sehingga dapat diakses secara off-line.

Beberapa hal yang sering menjai panduan web grabbing forum adalah (contoh kasus forum KIOS):
1. KIOS On CD ini dihasilkan dari hasil proses web grabbing.

2. Posting yang di-grab adalah dari tanggal tertentu sampai tanggal tertentu saja  pada jam sesuai dengan yang ditunjukkan pada atribut file yang bersangkutan.

3. Nama semua halaman web pada dasarnya adalah sama dengan nama aslinya, parameter halaman ditambahkan langsung sesudah nama halaman dengan dipisahkan oleh tanda garis bawah, dan ekstensi .php diganti menjadi .htm. Contoh:

http//opensource.telkomspeedy.com/forum/viewtopic.php?id=4062

disimpan dengan nama

DIR/opensource.telkomspeedy.com/forum/viewtopic_id=4062.htm

di mana DIR adalah direktori di mana hasil grabbing ini ditempatkan.

4. Lingkup file yang dimuat di dalam Forum On CD adala semua file (halaman web dan objek) yang terdapat di dalam domain opensource.telkomspeedy.com yang terhubung secara langsung dan tidak langsung dengan halaman utamanya.

5. Struktur direktori yang digunakan adalah sesuai dengan penempatannya dan semua link absolut terhadap file-file di dalam domain opensource.telkomspeedy.com dikonversi menjadi link relatif sehingga layak untuk digunakan secara off-line.

6. Link sumber dan link target ke luar domain opensource.telkomspeedy.com tidak mengalami perubahan. Konsekuensinya, sejumlah posting yang mengambil gambar dari luar domain opensource.telkomspeedy.com tidak akan ditampilkan seperti seharusnya. Itu akan terlihat normal jika anda menggunakan Forum On CD dalam keadaan koneksi Internet sedang terhubung.

7. Untuk menghemat ruang pada CD atau hard-disk maka setiap thread hanya disimpan dalam format tanpa bookmark. Oleh sebab itu maka semua link yang terdapat di kolom Last Post tidak dapat digunakan. Untuk mengakses suatu thread Anda harus masuk dulu ke Forum induknya dan pilih thread yang dimaksud dari kolom Topic.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: