RSS

Bab III. REKAYASA WEB

13 May

Tujuan dari web of science adalah pelacakan pengembangan web, yang menentukan inovasi baik dan yang buruk, dan memberikan kontribusi bagi perkembangan menguntungkan. Pada bagian ini kita akan meninjau beberapa petunjuk pembangun web.

3.1 Web Sematik

Web adalah arsitektur berprinsip standar, bahasa dan formalisms yang menyediakan platform untuk aplikasi yang heterogen (banyak). Beberapa tuntutan di web mengharuskan membuat suatu  model yang ekspresif. Sering terjadi bahwa trade off antara expressivity dan kegunaan merupakan akibat dari penyalahgunaan umum dari formalisms tersebut. Untuk contoh, kita akan membahas contoh ini secara lebih rinci. Desain web semantik terkait formalisms dimaksudkan untuk memperpanjang menutupi data terkait, tidak seperti yang di asumsikan untuk meningkatkan pencarian atau mendapatkan kekuatan yang lebih besar dari teks beranotasi. Ini mungkin ssebagai klaim bahwa model lokal dan muncul semantik merupakan bagian penting dari cara kita memahami web. Jika demikian, akan ada trade off yang serius dengan interoperabilitas yaitu manfaat dari pencarian terdistribusi terstruktur dan berbagi data besar namun memerlukan semantik interoperable. Meninggalkan semantikunderdetermined berarti memaksa pengguna (manusia) melakukan pembuatan rasa, seperti misalnya dengan sistem P2P, jika mereka memaksakan semantik cenderung hanya menggunakan yang sangat sederhana dan tingkatannya rendah.Dalam asumsi tertentu bahwa aparat dari eb semantik dirancang untuk memperpanjang teknologi yang tersedia untuk melihat dokumen yang menyebabkan kekhawatiran tentang trade off antara mudah semantik muncul atau sulit logika yang salah.

3.1.1 Web Semantik

Web memulainya dengan upaya membuat orang untuk mengubah perilaku dan hal penting dari seorang manusia. Banyak orang membuat dokumen namun web pra-asumsi dokumen tersebut adalah milik pribadi dari penciptanya dan keputusan untuk mempublikasikan adalah miliknya. Teknologi memungkinkan orang untuk menerbitkan dokumen dengan sangat mudah. Tujuan web adalah mengubah perilaku yang radikal dan menyediakan teknologi untuk melakukan membuat dokumen untuk orang lain dengan menambahkan link yang dapat di akses. Pesatnya pertumbuhan web adalah cara dimana perubahan ini cepat diadopsi di semua sektor masyarakat barat dan mungkin mengaburkan radikalisme dari langkah ini. Web Semantik merupakan upaya memperluas potensi web dengan ekstensi analog perilaku manusia. Jadi visi web semantik adalah perluasan dari prinsip-prinsip web dari dokumen untuk data. Data yang akan dibagi akan efektif dan lebih luas.

Kekuasaan web akan jauh lebih besar jika data dapat didefinisikan dan terkait sehingga mesin bisa melampaui tampilan dan bukannya mengintegrasikan alasan tentang data berbagai aplikasi. Saat ini web baik teks, musik, gambar, video, dan jasa bisa dengan mudah digunakan pada skala web. Tujuan dari web semantik adalah memfasilitasi menggunakan data serta penemuan mereka, melalui Google dalam hal ini. Dalam konteks ini adalah layak disebut perbedaan antara pengambilan informasi dan pengambilan data. Tujuan pertama adalah untuk menghasilkan dokumen yang relevan dan query. Data dalam arti nyata lebih fundamental dari sebuah dokumen. Secara tradisional, di AI misalnya basis pengetahuan atau sistem pakar atau bahkan database  digunakan untuk mewakili informasi yang handal, dapat dipercaya, mungkin konsisten dan didasarkan pada strategi akusisi terpusat dan representasi protokol. Di web tentu saja asumsi ini tidak selalu berlaku. Sebagai contoh, kita harus memastikan bahwa inkonsistensi tidak menggelincirkan semua kesimpulan dari sumber-sumber kelompok pengetahuan tertentu yang saling tidak konsisten. Banyak aplikasi untuk web semantik belum mulai beroperasi. Strategi web semantik untuk menyediakan kerangka kerja umum untuk pembebasan data berdasarkan Deskripsi Resource Framework (RDF), yang mengintegrasikan berbagai aplikasi menggunakan XML sebagai pertukaran sintaks. Web semantik ini tidak hanya masalah menandai dokumen HTML di web, ini berusaha membawa bersama data di seluruh web sehingga membuat luas database melampaui komponennya, yang membuat aplikasi mungkin yang menyimpulkan seluruh data heterogen dan memungkinkan browsing dan kesimpulan di berbagai sumber data kronik.

Model data web semantik sangat berhubungan dengan dunia relasional data. Sebuah database relasional adalah tabel yang terdiri dari catatan yang merupakan baris.  Semacam ini database adalah jenis sumber pengetahuan sebagai dasar web semantik. Jadi web semantik adalah perpanjangan WWW dalam al yang menjadi tahap berikutnya menghubungkan data tidak dokumen. Hal ini dimaksudkan untuk berfungsi dalam konteks model relasional data. Menghubungkan adalah kunci untuk web semantik tersebut. RDF dan OWL memungkinkan pertukaran data dalam konteks dunia nyata. Visi asli dari web semantik telah dirumuskan dalam bentuk diagram berlapis. Pengembangan proses web semantik bergerak ke atas, dengan perhubungan RDF OWL di tengah.

3.1.2 URI : Nama atau alamat ? atau keduanya ?

Sebuah refrensi URI digunakan sebagai node dalam sebuah grafik RDF mengidentifikasi hubungan antara hal-hal diidentifikasi oleh node terhubung. Secara umum menggunakan URI untuk mengidentifikasi sumber daya merupakan faktor penting dalam pengembangan web. URI memliki lingkup global dan diinterpretasikan secara konsisten di seluruh konteks. Hubungan diidentifikasi dengan URI, link sumber daya juga diidentifikasi oleh URI. Untuk mendapatkan mesin pembacaan yang dimaksudkan web semantik aman, maka mesin harus bisa mendapatkan hubungan dan harus dapat deference URI yang mengidentifikasi relasi dan mengambil sebuah reprentasi dari sumber daya diidentifikasi. Biasanya nama dan alamat berbeda. Nama merujuk langsung ke sesuatu. Alamat yang mengatakan dimana anda. Dalam komputer tradisional pengidentifikasian muncul dalam bahasa pemrograman. Alamat adalah lokasi di memori. Nama yang dipakukan ke objek, alamat ke tempat-tempat, dan karena itu objek harus memiliki satu nama selamanya, sementara alamatnya bisa berubah.

Ada asumsi bahwa identifier akan menjadi salah satu dari dua macam hal. URI bisa mengidentifikasi langsung atau melalui lokasi namun ini bukan konseptual dalam perbedaan. Perbedaan nama dan alamat adalah sebuah metafora spasial yang bekerja dengan baik dalam lingkungan komputasi standar. Jika sistem hirarki penamaan sudah diatur dan dikelola sebagai otoritas maka nama tersebut akan berfungsi hanya selama sebagai otoritas itu sendiri tetap ada. Lokasi literal adalah titik di ruang 3-D. Lokasi literal adalah titik di Ruang 3-D,dan dalam sistem komputer jaringan kita tidak harus mendapatkan juga tetap pada apa yang kita harus memanggil nama, atau alamat, atau fisik lokasi sel memori yang akan menyimpannya.Sebuah memori komputer alamat sering alamat dalam ruang memori virtual yang dialokasikansuatu benda, yang diterjemahkan digunakan oleh perangkat keras ke dalam fisik alamat memori. Alamat IP yang tidak terikat pada komputer tertentu, namun secara implisit berisi referensi informasi routing, sehingga komputer sesuai dengan alamat IP yang diberikan tidak dapat dipindahkan jauh di struktur routing. Nama domain bisa digunakanuntuk merujuk ke komputer atau apa komputer menyajikan ketika kita ingin berhak untukmemindahkan hal yang berhubungan dengan identifikasi dari satu bagian dari Internet lain.Jadi Domain Name System (DNS), yang independen sistem routing, tidak membatasi alamatIP yang dapat diberikan ke komputer dari sebuah nama domain yang diberikan. DNS memang terlihat seperti sistem nama, sedangkan alamat IP lakukan tampaknya berfungsi seperti alamat.

3.1.3 Ontologi

Pada tradisional konsepsi, ontologi berisi spesifikasi dari konsep yang diperlukanuntuk memahami sebuah domain, dan kosa kata yang diperlukan untuk masuk ke dalam wacana tentang hal itu, dan bagaimana konsep-konsep dan kosa kata saling berhubungan,bagaimana kelas dan contoh dan sifat mereka didefinisikan, dijelaskan dan disebut. Sebuahontologi dapat formal atau informal. Keuntungan dari formalitas adalah bahwa hal itu membuat ontologi mesin-dibaca, dan karena itu memungkinkan mesin untuk melakukan lebih dalam penalaran atas sumber daya web. Kerugiannya adalah bahwa seperti formalkonstruksi yang dianggap sulit untuk dibuat. Data dapat dipetakan ke sebuah ontologi,menggunakannya sebagai lingua francauntuk memfasilitasi berbagi. Ontologi karena itu dimaksudkan untuk menaruh semacam urutan ke informasi dalam format heterogen danrepresentasi, sehingga berkontribusi pada ideal melihat Web sebagai pengetahuan tunggal
sumber. Sejauh itu, ontologi adalah mirip dengan skema database, kecuali bahwa itu akan ditulis dengan relatif kaya dan ekspresif bahasa, informasi akan kurang terstruktur, dan menentukanteori domain, tidak hanya struktur sebuah wadah data. Jadi ontologi dipandang sebagai tambahan berarti yang penting untuk berbagi data,dan Tujuan utama memperlakukan Web sebagai satu-satunya sumber informasi, tetapi mereka juga memiliki penentangnya.

Sulit untuk menentukan formalisme yang akan menangkap semua pengetahuan, tipesewenang-wenang, dalam sebuah domain tertentu. Ontologi, tentu saja, melayani tujuan yang berbeda, dan bisa lebih dalam (mengungkapkan ilmiah konsensus dalam disiplin, dan sejalanpadat karya untuk membangun) atau lebih dangkal (dengan istilah yang relatif sedikit yangmengatur besar jumlah data). Memang, ada banyak jenis wacana melampaui ontologi tentu saja, dan banyak logika mengekspresikan mereka, untuk contoh sebab akibat, logikatemporal dan probabilistik. Causal logika dikembangkan dari logika tindakan di AI, dandimaksudkan untuk menangkap aspek penting dari pemahaman akal sehat mekanisme dansistem fisik. Temporal logika formalises yang aturan untuk penalaran dengan proposisidiindeks untuk waktu tertentu, dalam konteks dari Web yang berkembang pesat, prevalensiwaktu-stamping online dan risiko dari informasi yang digunakan yaitu dari tanggal menjaminrelevansi itu. Tentu saja pendekatan logika temporal telah disarankan untuk manajemenversi ontologi. Logika Probabilistik adalah kalkuli yang memanipulasi konjungsi probabilitasperistiwa individu atau negara.

3.1.4 Folksonomi dan struktur sosial muncul

Penggunaan ontologi menambah struktur data. Namun, struktur dapat muncul secara organik dari manajemen individu mereka sendiri persyaratan informasi, selama ada orang cukup. Ada semakin banyak aplikasi didorong oleh desentralisasi komunitas dari-bawah ke atas, yang pergi di bawah nama tidak jelas tapi populerperangkat lunak sosial. Sebagai contoh, wiki adalah sebuah situs web yang memungkinkan pengguna dan pembaca untukmenambah dan mengedit konten,yang memungkinkan komunikasi, argumen dan komentar,Wikipedia (http://en.wikipedia.org / wiki / Halaman Utama untuk versi bahasa Inggris), sebuahensiklopedi online yang ditulis oleh komunitas pengguna, telah menjadi sangathandal meskipun kekhawatiran yang sedang berlangsung tentang kepercayaan entriyang
dan ketakutan dari vandalisme. Ontologi dapat dilengkapi dengan folksonomi, yang timbulketika sejumlah besar orang yang tertarik dalam beberapa informasi, dan didorong untukmenggambarkan itu – atau tag itu(mereka mungkin tag egois, untuk mengatur pengambilansendiri isi, atau altruistically untuk membantu navigasi orang lain ‘). Daripada bentuk terpusatklasifikasi, pengguna dapat menetapkan kata kunci untuk dokumen atau informasi lainsumber. Dan ketika tag tersebut dikumpulkan, hasilnya sangat menarik. Contoh aplikasi yang telah berhasil memanfaatkan dan mengeksploitasi penandaan adalah Flickr(http://www.flickr.com/ – fotografi publikasi dan situs berbagi) dan del.icio.us (http://del.icio.us/ -sebuah situs untuk penanda berbagi).

3.1.5 Ontologi v folksonomi ?

Dikatakan – meskipun saat ini argumen yang hanya penyaringan perlahan ke dalamliteratur akademik – yang folksonomi lebih disukai untuk penggunaan dikendalikan, ontologiterpusat. Annotating Web halaman menggunakan kosakata terkontrol akan meningkatkankemungkinanseseorang balik halaman di pencarian Web yang ‘benar’, namun di sisi lain
basis pengguna besar heterogen dari Web tidak mungkin mengandung banyak orang (atauorganisasi) bersedia untuk mengadopsi atau mempertahankankompleks ontologi. Menggunakansebuah ontologi melibatkan membeli ke cara tertentu ukiran Facebook dunia, dan menciptakan suatu ontologi memerlukan investasi ke metodologi dan bahasa, sedangkanpenandaan informal dan cepat. Tag seseorang mungkin tidak membantu atau tidak akurat, dan tidak diragukan lagi ada suatu seni untuk penandaan berhasil, tapi satu mendapatkan hasil (dan tanggapan) sebagai salah satu belajar; ontologi, di sisi lain, memerlukan sesuatu dari suatu investasiwaktu dan sumber daya, dengan masukan yang datang lebih lambat.

Tagging tentu merupakan perkembangan yang menarik dan sebuah fenomena menarik,
tetapi kita harus waspada dengan mengasumsikan bahwa tag dan ontologi bersaing untukruang yang sama. Tagging memberikan potensi sumber metadata, dengan semua kekuranganinformalitas dan semua keuntungan hambatan rendah untuk masuk dan basis pengguna yang tinggi. Tapi tag hanya bagian dari cerita tentang sumber daya Web. Ontologi danfolksonomi telah karikatur sebagai berlawanan. Dalam kenyataannya, mereka adalah dua hal yang terpisah, meskipun beberapa fungsionalitas ontologies uncontroversially dapat diambilalih oleh folksonomi dalam berbagai konteks. Ada dua terpisah (kelompok) poin untuk
membuat. Yang pertama harus dilakukan dengan seharusnya trade-off antara ontologi
dan folksonomi, yang kedua berkaitan dengan persepsi tentang ontologi. Ontologi danfolksonomi ada di sana untuk melakukan hal yang berbeda, dan menangani kasus-kasus yang berbeda. Folksonomi adalah varian pada keywordsearch yang tema, dan merupakan upaya yang muncul di informasi menarik pengambilan – bagaimana saya bisa mengambil dokumen(foto, katakanlah) yang relevan dengan konsep di mana saya tertarik? Ontologi merupakanupaya untuk mengatur bagian dari dunia data, dan untuk memungkinkan pemetaan dan interaksiantara data dalam format yang berbeda atau lokasi, atau yang telah dikumpulkan oleh organisasi yang berbeda dengan asumsi yang berbeda.

Ada yang berpendapat bahwa ontologi berguna bisa menggabungkan material dari jaringan sosial dan perangkat lunak, sebagai informasi yang sedang dimodelkan memilikidimensi sosia. Hal ini mungkin menawarkan satu set baru kesempatan – untuk contoh adalah perangkat lunak blogging yang secara otomatis membuat metadata bisa menjadi cara untukmemanfaatkan bottom up software sosial pendekatan . Persepsi ontologies tergantung pada pemahaman akan perbedaan ini. Perhatikan, misalnya, biaya ontologi. Dalam pertama tempat, akan ada daerah di mana biaya, akan mereka pernah begitu besar, akan mudah untukmenutup. Di daerah baik terstruktur seperti aplikasi ilmiah, upaya untuk menciptakan spesifikasikanonik kosakata akan sering senilai keuntungan, dan mungkin penting, memang, Semantic Web teknik yang mendapatkan tanah dalam konteks ilmiah dengan data yang kaya di mana terdapat kebutuhan untuk pengolahan data dan kemauan untuk mencapai
konsensus tentang istilah. Dalam aplikasi komersial tertentu, potensi keuntungan daripenggunaan spesifikasi baik terstruktur dan terkoordinasi kosakata akan lebih besar daripada biaya tenggelam untuk mengembangkan ataumenerapkan ontologi, dan biaya marjinalpemeliharaan. Misalnya, memfasilitasi pencocokan istilah dalam persediaan pengecer dengan orang-orang dari agen pembelian akan menguntungkan kedua belah pihak. Dan biaya ontologies berkembang mungkin berkurang pengguna dasar dari ontologi meningkat. Jika kita menganggap bahwa biaya pembangunan ontologi tersebar di komunitas pengguna, jumlah ontologi insinyur yang dibutuhkan meningkat seiring dengan log ukuran komunitas pengguna, dan jumlah waktu meningkat bangunan sebagai kuadrat dari jumlah insinyur – asumsi yang sederhana saja tapi yang wajar untuk dasar model – upaya yang terlibat per pengguna dalam ontologi bangunan besarmasyarakat menjadi sangat kecil sangat cepat.

Kedua, ada persepsi ontologies sebagai top-down dan agak otoriter konstruksi, tidak terkait, atau hanya tenuously istimewa, untuk orang-orang yang sebenarnya praktek, dengan berbagai tugas potensial di domain, atau dengan operasi konteks . Dalam beberapa hal, inipersepsi mungkin berhubungan dengan gagasan pengembangan tunggal Ontologi konsisten Segalanya, seperti misalnya dengan CYC [183]. Tujuan dari SW harus dilihat dalam konteks rutinsifat jenis perjanjian. SW ini dimaksudkan untuk menciptakan dan mengelola standaruntuk membuka dan membuat perjanjian ini rutin parsial dalam format data; standartersebut harus memungkinkan untuk eksploitasi data relasional pada skala global, denganbersamaan leverage bahwa skala yang membeli.

3.1.6 Metadata

Isu-isu yang berkaitan dengan semantik atau penafsiran Web melampaui Semantic Web.Sebagai contoh, metadata dapat digunakan untuk menggambarkan atau membubuhi keterangan sumber daya dalam rangka untukmembuatnya (lebih) dimengerti untuk pengguna.Pengguna ini mungkin menjadi manusia, dalam hal metadata dapat menjadi tidak terstruktur,atau mesin, dalam hal metadata harus mesin dibaca. Biasanya, metadata adalah deskriptif,termasuk misalnya elemen dasar sebagai nama penulis, judul atau abstrak dokumen, dan
administrasi informasi seperti jenis file, hak akses, menyatakan HKI, tanggal, nomor versidan sebagainya. Item multimedia dapat dijelaskan dengan deskripsi tekstual konten, atau kata-kata kunci untuk membantu berbasis teks pencarian. Secara umum, metadata yangpenting untuk pencarian yang efektif (mereka membiarkan sumber daya yang ditemukanoleh berbagai kriteria, dan sangat membantu dalam menambah struktur dicari sumber daya non-teks), pengorganisasian sumber daya (misalnya, memungkinkan portal untukberkumpul komposit laman web secara otomatis dari sumber daya yang sesuai beranotasibeberapa), pengarsipan bimbingan, dan informasi mengidentifikasi (seperti nomor referensi yang unik, yang membantu memecahkan masalah satu ketika Sumber daya Web adalah ‘sama’seperti yang lain). Mungkin penggunaan paling penting untuk metadata adalah untuk mempromosikan interoperabilitas, memungkinkankombinasi sumber daya heterogen di seluruh platform tanpa kehilangan konten. Skema Metadata memfasilitasi pembuatan metadatadalam standar format, untuk memaksimalkan interoperabilitas, dan ada sejumlah
seperti skema, termasuk Dublin Core (http://dublincore.org/) dan Teks Encoding Initiative(TEI – http://www.tei-c.org/).

Kedua, bagaimana metadescription mempengaruhi inferensi? Apakah itu membuat lebih sulit? Apa yang dapat dilakukan tentang annotating isi warisan? Banyak yang telah
tertulis tentang semua pertanyaan ini, tetapi itu sangat berharga sebuah penyimpangan kecil untukmelihat beberapa pendekatan yang pertama. Sehubungan dengan metadata yang diperlukan, tentu saja banyak tergantung pada tujuan untuk sumber daya yang dijelaskan. Untuk berbagai tujuan -misalnya, foto digital berbagi – metadata bisa menjaga diri mereka sendiri,sebagai keberhasilan situs seperti pertunjukan Flickr. Lebih umum, menarik
kemungkinan untuk metadata termasuk waktu-stamping, asalnya, ketidakpastian dan perizinanpembatasan.

Faktor kunci dalam menilai kepercayaan dokumen adalah keandalan atau klaim disajikan di dalamnya; metadata tentang asalnya tidak diragukan lagi akan membantu dalam penilaian seperti ini, tetapi perlu belum tentu mengatasinya. Akhirnya, metadata yang berhubungan denganpembatasan lisensi telah berkembang dengan gerakan untuk, ‘creative commons’ perlindunganfleksibel berdasarkan hak cipta yang lebih tepat untuk konteks Web dan weblike.

3.2 Referensi dan identitas

Semantic Web mengandalkan konvensi penamaan dengan URI, dan Tentu saja setiap bagian dari sistem pelabelan Web yang bergantung pada beberapa konvensi atau lainnya. Masalah dengan label di Web adalah bahwa sistem apapun dasarnya desentralisasi dan tidak diawasi, sesuai dengan Web yang mengatur prinsip-prinsip, tetapi ini tidak sentralisasi memungkinkan skema yang berbeda dan konvensi, dan memang kecerobohan, untuk berkembang, yang pada gilirannya membuka kemungkinan kegagalan referensi unik.

3.2.1 Referensi: Kapan dua benda yang sama?

Desentralisasi adalah masalah dari sudut pandang logis, meskipun besar keuntungan dari yang pencipta konten. Kegagalan referensi unik relatif sepele bagi pengguna manusia untuk menguraikan, tetapi tentu saja sangat sulit bagi mesin untuk bekerja keluar. Dan
jika kita berharap untuk mengekstrak informasi yang berguna dari repositori yang sangat besar informasi, dimana kerajinan tangan solusi dan referensi memeriksa oleh mata tidak layak, pengolahan mesin tidak bisa dihindari. Referensi masalah yang sangat mungkin terjadi ketika sumber-sumber informasi digabung, masalah di mana-mana tapi yang serius dalam konteks dari Web Semantic. Dan desentralisasi Web menghalangi membuat asumsi nama yang unik, dalam cara. Di sisi lain, URI menyediakan Web dengan sumber daya untuk menghindari setidaknya beberapa masalah grounding tradisional, ketika dapat diatasi bahwa dua istilah ini menunjuk ke URI yang sama.

Sebuah metode heuristik untuk menyelesaikan bentrokan tersebut, di dunia nyata, adalahuntuk membuat penilaian cerdas berdasarkan informasi jaminan, dan ini telah menirukan onlinedengan perhitungan komunitas praktek nama, berdasarkan jaringan hubungan sekitarnya masing-masing instansi yang disengketakan. Secara umum, manajemen referensi, dan resolusi referensimasalah, akan selalu sulit mengingat bahwa theWeb mencakup sejumlah besar mengumpulkaninformasi untuk sejumlah alasan yang berbeda dan untuk memecahkan berbagai tugas, makna daninterpretasi sering shift, dan ada mungkin pada kesempatan menjadi kesepakatan sedikit tentangreferen istilah. Sebuah isu penting untuk Web Sains justru bagaimana memahami referensi danrepresentasi, dan menentukan sistem yang manajemen dan formalisms akan memungkinkanpemahaman yang lebih besar dan pelacakan dari apa yang Web ini dimaksudkan untukmengatakan tentang yang objek.

3.2.2 Kapan dua halaman yang sama?

Alternatif mengambil masalah referensi adalah bahwa penentuan ketika dua halaman web adalah halaman yang sama. Hal ini tentu saja akan menjadi sepele dalam banyak kasus, tetapi sering kali “utama ” teks yang disalin dari satu halaman ke lain, tetapi dikelilingi oleh iklan yang berbeda, logo, header dan footer. Banyak metrik yang tersedia yang dimaksudkan untuk menentukan kuantitatif tingkat hubungan antara dua halaman. Kesamaan penilaian bisa sembarangan dan pragmatis, tergantung pada konteks (misalnya memutuskan plagiat atau kasus pelanggaran hak cipta), tetapi teknik dari teori informasi yang ada untuk menghasilkan set nomor tujuan untuk memberi makan ke dalam proses penilaian – misalnya, Levenshtein edit jarak, dan varian algoritma, diberikan dengan jumlah minimum operasi dari beberapa basis yang diperlukan untuk bisa mengubah satu string menjadi lain.

Dasar untuk membuat penilaian kemiripan tidak perlu hanya menjadi konten pada halaman,tetapi juga bisa menjadi struktur hyperlink dalam halaman yang tertanam. Informasi yangmengharuskan pengguna tidak perlu berasal dari satu halaman, tapi malah bisa dipetik dari clusterdokumen seputar topik dasar, dan hubungan yang struktur ada bisa sangat penting. Dan lebih jauhkemungkinan cara kesamaan pemahaman antara pola penggunaan tertentu halaman – dua halaman yang sering diakses pada titik-titik serupa di Web sesi surfing? Konten berbasis kesamaan dapatdidekati dengan mencocokkan kata-kata atau
subsequences dari dua halaman. Teknik yang relatif sederhana digunakan untuk menentukankemiripan antara dua halaman (rasio antara ukuran persimpangan dari subsequences dan ukuranserikat mereka), dan penahanan satu dengan yang lain (rasio antara persimpangan dan ukuran dari himpunan yang terkandung) [48]. Linkbased metrik berasal dari bibliometrics dan analisis kutipan,dan fokus pada keluar link dan link dalam dua halaman memiliki kesamaan, relatif ke ruang umumlink di cluster topik. Penggunaan berbasis metrik
memanfaatkan informasi yang dikumpulkan dari server log dan sumber-sumber lain tentang
ketika halaman yang dikunjungi, pada asumsi bahwa kunjungan dari yang sama pengguna dalamsesi yang sama di situs yang sama kemungkinan akan konseptual terkait, dan semakin besarkesamaan antara waktu akses pengguna untuk halaman web, semakin besar kemungkinanhalaman tersebut yang entah bagaimana terkait secara konseptual.

3.3 Web rekayasa: arah Baru

Pembangunan Web adalah campuran dari standar-setting, tidak terstruktur, desentralisasikegiatan dan inovasi, dan rekayasa yang disengaja. Pada bagian ini kita akan fokus pada yang terakhir, dan review menonjol teknik isu dan keharusan terbuka. Pertumbuhan Web jelasmerupakan sesuatu yg diinginkan kunci. Penyimpanan jumlah semakin besar informasi, dalamkonteks perhitungan pernah-cepat, akan sangat vital untuk
masa mendatang. Tanpa lebih cerdas pengambilan penyimpanan dan cepat untuk mediamemori-lapar seperti video, maka pada akhirnya akan tumbuh terlalu theWeb besar untukteknologi sendiri. Sebagai contoh, PageRank membutuhkan merangkak dan caching dari bagian signifikan dari theWeb; keberhasilan Google tergantung pada kemampuan untuk menjaga cachepenurut sementara juga ukuran yang signifikan. Greater permintaan untuk layanan personalisasidan pencari juga akan memberikan tekanan pada sistem. Memperluas cakupan pencarian untukmencakup item seperti multimedia, jasa atau komponen ontologi, juga akan memerlukan mengejarprogram penelitian akademik, interface efektif dan model bisnis yang masuk akal sebelum layanankomersial mulai beroperasi. Yang ada dan mengembangkan pendekatan untuk memanfaatkanWeb harus diperluas ke lingkungan Web yang baru sebagaimana yang diciptakan (seperti P2Pjaringan).

3.3.1 Web layanan

Layanan area utama di mana kami rekayasa model kebutuhan Web untuk terlibat dan jasaextended.Web didistribusikan potongan kode ditulis untuk memecahkan tugas-tugas tertentu,yang dapat berkomunikasi dengan layanan lain melalui pesan. Tugas yang berskala lebih luasdapat dianalisis dan secara rekursif dipecah menjadi sub-tugas yang dengan peta keberuntunganakan ke spesifik tugas-tugas yang dapat diatasi oleh layanan. Jika itu terjadi, dan jika layananditempatkan dalam konteks Web, yang berarti bahwa pengguna dapat memanggil layanan yangbersama-sama dan kooperatif memenuhi kebutuhan mereka. Software abstrak jauh dari hardwaredan memungkinkan kita untuk menentukan komputasi mesin dalam hal fungsi logis, yangmemfasilitasi spesifikasi masalah dan solusi dengan cara yang relatif intuitif. The evolusi dari Webuntuk memasukkan penyediaan dan difusi layanan membuka prospek abstraksi baru: pertanyaansekarang adalah bagaimana kita bisa melakukan abstraksi yang sama jauh dari perangkat lunak.Apa metode menggambarkan layanan akan memungkinkan kita untuk berhenti khawatir tentangbagaimana mereka akan dilakukan?

Sejumlah metode proses menentukan telah berkembang selama beberapa tahun terakhirdan diterapkan pada domain layanan Web. Misalnya, WS-Net adalah bahasa deskripsiarsitektural berdasarkan teori Petri jaring berwarna (yaitu perluasan dari teori Petri sederhanabersih dengan terhormat, token diidentifikasi), yang menggambarkan komponen layanan Webdalam hal jasa yang memberikan untuk komponen lain, layanan yang diperlukan untuk fungsi, danoperasi internal. Hasil akhirnya adalah model yang mencakup baik global dan aspek-aspek lokaldari sistem pelayanan, memfasilitasi integrasi layanan Web untuk mencapai tujuan-tujuan baru,sementara juga menyediakan sebuah formalisme untuk evaluasi integrasi. Proses aljabar (lihatBagian 4.2.5) juga telah diterapkan untuk layanan. Sekali lagi, seperti dengan pendekatan Petrinet, penggunaan formal aljabar memungkinkan baik desain dan evaluasi untuk mengambil tempat(atau memang salah satu atau yang lain, tergantung pada apa metode alternatif yang tersedia untukmenghasilkan atau survei kode). Sebagai contoh, [98] menggambarkan pemetaan antara aljabarproses ekspresif dan BPEL4WS (yang distandarisasi Berbasis XML notasi untukmenggambarkan proses bisnis executable), yang memungkinkan baik pembentukan jasa diBPEL4WS diikuti oleh mereka evaluasi dan verifikasi menggunakan aljabar proses, atau generasikode BPEL4WS otomatis dari penggunaan aljabar untuk menentukan layanan yang diinginkan.Secara umum, spesifikasi aljabar pelayanan pada tingkat abstrak dan penalaran tentang merekatelah menjadi
utama bidang penelitian pada layanan.

BPEL4WS adalah versi panjang dari Eksekusi Proses Bisnis Bahasa BPEL, yang menjadi cara yang semakin penting untuk Sun Web layanan dengan proses bisnis. BPEL ada batasnya, tapi memungkinkan penciptaan layanan komposit dari layanan yang telah ada. The
Tahap selanjutnya adalah menyesuaikan pendekatan ini untuk lingkungan P2P, dan
kendaraan saat ini dalam pengembangan untuk itu adalah CDL, alias WS-CDL, alias
Koreografi (Web Services Choreography Description Language), sebuah bahasa berbasis XML untuk mendefinisikan umum dan saling melengkapi diamati perilaku dalam kolaborasi P2P. Tujuannya adalah agar interoperable P2P kolaborasi dapat disusun dengan menggunakan Koreografi tanpa memperhatikan spesifik seperti platform dasar yang digunakan; bukan fokus pada tujuan umum dari kolaborator. Sedangkan BPEL memungkinkan ada pelayanan yang akan digabungkan bersama-sama, Koreografi pergeseran fokus ke deskripsi global kolaborasi, informasi pertukaran, pemesanan tindakan dan sebagainya, untuk mencapai tujuan yang disepakati.

3.3.2 Distributed pendekatan: komputasi Pervasif, P2P dan grid

Ada banyak lingkungan hardware yang akan Web diharapkan untuk menembus, namun di mana teknik asumsi yang berlaku untuk skala besar, lebih-atau-kurang tetap mesin komputasikhusus tidak harus berlaku. Contoh nyata termasuk komputasi mobile, di mana-mana (ataumeresap) komputasi mana interoperabilitas menjadi masalah, P2P sistem dan komputasi grid.Komputasi Mobile membuat segala macam tuntutan rekayasa, daya komputasi yang tersediatidak luas dan pengguna harus diasumsikan terus-menerus bergerak dengan variabel bandwidthdan akses. Selain itu, menyajikan informasi kepada pengguna
memerlukan paradigma yang berbeda dari PC, misalnya untuk memungkinkan pengguna untukmenerima informasi yang cukup pada layar kecil untuk membuat browsing menarik. Akses mobileke Web dapat menjadi mode dominan di banyak negara, terutama yang berkembang, terima kasih untuk harga yang relatif rendah dan keandalan koneksi nirkabel dan baterai kekuasaan.Penelitian di bidang ini penting untuk adil distribusi sumber daya web.

Mana-mana komputasi, P2P dan berbagi banyak komputasi grid serius penelitian masalah, terutama koordinasi perilaku dalam jumlah besar terdistribusi skala sistem. Mana-mana komputasimembayangkan kecil, relatif perangkat komputasi bertenaga rendah tertanam di lingkunganpervasively berinteraksi dengan orang. Ada berbagai kemungkinan imajinatif, seperti benangcerdas yang dapat ditenun menjadi pakaian. Tapi tanpa menebak-nebak kecenderungan jelaslahbahwa perangkat yang lebih kecil akan perlu koneksi nirkabel ke jaringan arsitektur yang memungkinkan otomatis ad hoc konfigurasi, dan ada sejumlah kesulitan rekayasa yang terkaitdengan masalah. Sebagai contoh, penemuan layanan dalam paradigma meresap harus mengambiltempat tanpa manusia dalam loop. Layanan harus mampu mengiklankan diri untuk memfasilitasipenemuan. Standar layanan penerbitan
akan diperlukan untuk menjamin keamanan dan privasi, kepercayaan dari layanan keandalan,kompensasi untuk penyedia layanan, dan tepat bagaimana layanan akan terdiri dengan layanandipanggil lain untuk mencapai beberapa tujuan atau memecahkan masalah yang dihadapi.

3.3.3 Personalisasi

Hal ini sering mengklaim bahwa personalisasi itu penting untuk meningkatkan
nilai dari suatu jaringan, dan meningkatkan konsumen lock-in. Mengizinkan pengguna untuk menyesuaikan alat-alat mereka dan berarti ruang kerja yang Web tetap lebih dari commoditised satu ukuran cocok untuk semua daerah dan  malah menjadi sebuah ruang di mana orang dapat mengukir sendiri niche. Selain itu, mereka juga harus dapat menerima layanan yang lebih baik, disesuaikan dengan keadaan khusus mereka sendiri dan preferensi,
untuk sama atau hanya sedikit lebih biaya. sistem industri tersebut adalah  jelas aplikasi teknologi. Untuk mendapatkan personalisasi yang efektif, harus ada pemanfaatan yang terintegrasi dari informasi dari sejumlah sumber, termasuk data tentang pengguna (clickstream data, download pola, profil online), sumber daya yang  dikirim (konten situs, struktur situs) dan pengetahuan domain, bersama-sama dengan data teknis pertambangan yang cukup untuk menciptakan pandangan holistik dari sumber daya yang meliputi sebanyak mungkin informasi yang dibutuhkan pengguna, dalam representasi yang akan masuk akal bagi mereka, sementara tidak termasuk informasi  mereka tidak akan mau, dan yang bisa memperhitungkan dinamika  sifat model pengguna. Semua itu, sambil tetap mempertahankan hubungan antara invariants dari pengalaman Web dan konteks tertentu penggunaan seseorang yang memberdayakan dia untuk klaim sudut dari dunia maya dan mulai menggunakannya sebagai perpanjangan dari ruang pribadi. Mengingat bahwa, di Web, informasi yang relevan mungkin sangat didistribusikan dan dinamis, personalisasi diharapkan dapat menjadi salah satu besar keuntungan dari Web Semantic, yang unggul struktur yang memungkinkan penalaran atas sumber data dan didistribusikan. Ada banyak program teknik berjalan menyelidiki heuristik untuk personalisasi dari informasi yang tersedia, termasuk
menggunakan mesin belajar, ontologi, jaringan P2P, dan menghasilkan representasi untuk memfasilitasi pengumpulan informasi pengguna, serta menyediakan lingkungan yang memfasilitasi personalisasi dan link asosiatif didasarkan pada user-bukan dari penulis-preferensi. Lain benang penting dari personalisasi rekayasa adalah pengembangan alat untuk memungkinkan neophytes relatif untuk menciptakan atau meningkatkan pengetahuan teknik artefak kompleks, seperti ontologi atau pembungkus.
3.3.4 Multimedia

Web adalah lingkungan multimedia, yang membuat untuk kompleks semantik – ini tentu saja tidak masalah yang unik ke Web. Metareasoning dan epistemologi sering menganggap media tekstual, bahkan meskipun sebenarnya banyak penalaran dalam bentuk analog. Misalnya ahli sering menggunakan diagram untuk mengekspresikan pengetahuan mereka. Ada memiliki upaya telah menghasilkan taksonomi generatif ‘bahasa-seperti’
representasi visual, tetapi ini tidak tampaknya telah menarik aplikasi. Beberapa peneliti telah mencoba untuk menemukan prinsip-prinsip yang mungkin mendasari penalaran diagramatik. Adajuga telah aplikasi penting untuk decoding representasi visual untuk gangguan penglihatan dan koleksi gambar visualisasi terhadap ontologi domain. Pada akhirnya, integrasi multimodalrepresentasi adegan yang sama atau badan adalah masalah yang sangat keras. Secara umum, tidak diketahui bagaimana mengambil semantik dari representasi non-tekstual andal; fenomena ini dikenal sebagai semantik kesenjangan. Namun demikian, generasi Web berikutnya tidak harusdidasarkan pada palsu asumsi bahwa teks adalah pencarian dominan dan kata kunci berbasisakan mencukupi untuk semua tujuan yang wajar. Memang, isu-isu berkaitan dengan navigasimelalui repositori multimedia seperti video
arsip dan melalui theWeb tidak berhubungan: keduanya kebutuhan informasi link untukmendukung browsing, dan keduanya perlu untuk mendukung mesin manual link traversal. Namun,pendekatan kata kunci mungkin goyah dalam multimedia konteks karena kekayaan yang lebih besar dari banyak non-tekstual Media.

Pendekatan gambar Google pencarian bergantung pada sekitarnya teks untuk gambar, misalnya, yang memungkinkan pencarian yang relatif cepat, dan sekali lagi pada umumnyapengguna seringkali mampu membuat pilihan final memilah-milah rekomendasi yang disampaikan(gambar kata kunci berbasis pencarian cenderung menghasilkan banyak hits lebih sedikit, yangmungkin berarti mereka banyak kemungkinan hilang masuk akal). Kehadiran manusia dalam loopsulit untuk menghindari saat ini: intervensi manusia dalam proses mengintegrasikan bahasa visidengan modalitas lain yang biasanya diperlukan, meskipun ada sejumlah teknik yang menarikuntuk menggunakan struktur yang dihasilkan dari teks yang terkait dengan koleksi gambar untukbantuan pencarian dalam konteks terbatas.Tetapi selalu mungkin untuk mengeluarkan lebih banyak sumber daya pada analisis suatu gambar (katakanlah) untuk menghasilkan pertandinganyang lebih baik untuk pencarian kata kunci, jika kecepatan tidak merupakan faktor utama. Dalam analisis fitur tersebut, sebuah isu yang penting adalah kepentingan relatif dari fitur tingkat rendahseperti ‘dominan warna’, dan tingkat tinggi, fitur abstrak atau konsep, seperti sebagai ‘Madonna’atau ‘masih hidup’. Cari pada fitur-fitur tingkat rendah mungkin cepat dan lebih akurat, namunpengguna cenderung ingin pencarian cukup abstrak istilah.

Sebagai hybrid menarik telah disarankan bahwa kesenjangan semantik bisa diisi denganontologi dari visual yang mencakup istilah tingkat rendah dan memberikan semacam pemetaankonsep-konsep abstrak ke tingkat yang lebih tinggi disajikan dalam query dan metadata.Infrastruktur tersebut telah telah dibuat, dengan menggunakan (i) ontologi descriptor visualberdasarkan RDF representasi dari MPEG-7 deskripsi visual, (ii) struktur multimedia ontologiberdasarkan skema deskripsi-7 multimedia MPEG dan (iii) pemodelan ontologi inti primitif padaakar konsep hierarki yang dimaksudkan untuk bertindak sebagai jembatan antara ontologi, semuaditambah dengan ontologi domain [260]. A penting yang lebih jauh terbuka adalah isuinteroperabilitas teknologi Semantic Web dengan non-RDF berbasis metadata seperti metadataEXIF di file JPEG atau tag gambar informal dibuat di Flickr. Pekerjaan lebih lanjut diperlukanpada hubungan antara kebutuhan manusia dan sistem temu kembali citra kemungkinan otomatisasi[156, 206], termasuk pemahaman yang lebih dalam dari kemampuan relatif folksonomi danontologi. Tentu saja, media di sini tergambar adalah foto dan video; terbuka pertanyaan penelitiantetap tidak hanya tentang seberapa jauh orang bisa masuk pencarian dengan pendekatan semacam, tetapi juga tentang berapa banyak media akan menyerah sedemikian pendekatandengan cara yang terintegrasikan.

3.3.5 pemrosesan bahasa Alam

Akhirnya, ada masalah substansial yang berkaitan dengan pengolahan bahasa alami
(NLP), analisis komputasi data tidak terstruktur dalam teks-teks untuk menghasilkan pemahamanmesin (pada tingkat tertentu) dari teks yang. NLP berhubungan dengan Web dalam beberapa cara. Di tempat pertama, alam bahasa adalah domain yang sangat jarang, dalam kalimat yang paling diucapkan atau tertulis hanya terjadi sekali atau sangat jarang, dan skala raksasa Webmenyediakan sebuah korpus menarik untuk penalaran NLP. Sebuah angka perkiraan baru-baru ini untuk ukuran dari Web adalah dua ribu miliar kata, yang 71% adalah bahasa Inggris, Jepang6,8% dan 5,1% Jerman. Banyak yang relatif bahasa umum seperti Slovenia atau Melayu yang memegahkan diri kata 100m online, ukuran yang sama dengan Nasional Inggris digunakan secara luas dan dihormati Corpus. Ada argumen tentang bagaimana wakil Web adalah sebagai korpus, tapi gagasan tentang apa yang harus mewakili corpus – harus itu termasuk pidato, menulis, bahasalatar belakang seperti bergumam atau
berbicara dalam tidur seseorang, atau kesalahan misalnya? – sulit untuk dijabarkan dengan
presisi setiap. Kedua, mengingat masalah skala Web, teknik NLP akan menjadi penting dalamtugas-tugas seperti summarisation (lihat, misalnya, Dokumen Memahami tahunan Konferensi -http://duc.nist.gov/dan [69]), yang dapat memberikan dukungan yang berguna untuk bagian-bagian manusiatugas pencarian.

Ketiga, NLP memiliki potensi besar untuk pembangunan jenis-jenis antarmuka intuitifbahwa heterogen dan belum tentu computerliterateWeb komunitas pengguna membutuhkan.Memang mungkin membantu menjembatani kesenjangan antara visi SW aWeb terdiri dari datadimanipulasi secara logis, dan visi yang lebih tradisional dari Web sebagai tempat yang bergunadokumen diambil. Sebagai contoh, dapat digunakan teknik NLP untuk menemukan danmengekspresikan metadata [153]? Teks yang mengandung tidak terstruktur data sekarang dapatdipetakan ke sumber daya yang ada seperti ontologi untuk menyediakan markup dan penjelasan,setelah sesi pelatihan awal. Ontologi Computing seperti yang kita jumpai berbeda
dalam tujuan dan struktur dari thesaurus dan taksonomi dari NLP dunia, meskipun adaperdebatan tentang tingkat dan sifat dari perbedaan [125, 289]. WordNet, misalnya, bukanlahsuatu ontologi ketat, misalnya yang mengandung unsur leksikal dengan pengertian yang berbeda di mana suatu ontologi mencoba untuk memastikan interpretasi yang unik untuk istilah yang digunakannya. Tapi sama WordNet memang mengandung hubungan ontologis seperti diaturinklusi dan keanggotaan di dalamnya. Sumber daya NLP juga memiliki sesuatu
yang sama dengan folksonomi dan sejenisnya, serta pentingnya perbedaan.

Dari sudut pandang Web Sains, pertanyaan terbuka yang penting ada untuk hubunganantara NLP dan Web, adalah statistik teknik yang digunakan dalam NLP atau sebaliknyamelengkapi logis dan semantis berdasarkan teknik interogasi data yang digunakan oleh
SW masyarakat? Atau alternatif ada divisi optimal analitis tenaga kerja antara dua jenispendekatan yang kita dapat memanfaatkan? Banyak tergantung pada bagaimana kita menafsirkanpengembangan Web. Untuk Misalnya, jika seseorang melihat tugas utama sebagai untuk membubuhi keterangan dan menyediakan konteks yang kaya untuk konten dan struktur(‘menjinakkan Web’, seperti yang dijelaskan, maka NLP akan memainkan peran penting dalam hal itu, termasuk pemetaan drift dalam arti dari waktu ke waktu. Jika kita memahami SemanticWeb sebagai berfokus pada data dan model database relasional, maka logis syarat dan URI gigihmenjadi pusat. NLP bekerja dengan baik statistik, SW, sebaliknya, membutuhkan logika danbelum menggunakan substansial statistik. Bahasa alami demokratis, seperti yang diungkapkandalam slogan ‘artinya adalah menggunakan’). Setara dalam SW kata-kata bahasa alami adalahistilah-istilah logis, yang URI yang menonjol. Demikian kita memiliki disanalogy langsung antaraNLP dan SW, yang URI, tidak seperti kata-kata, mempunyai pemilik, dan sehingga dapat diatur.Yang bukan untuk mengatakan bahwa peraturan tersebut akan menjamin kekebalan dari maknadrift bahwa linguis mendeteksi, tetapi juga dapat memberikan stabilitas yang cukup selama jangkapendek medium.

 
Leave a comment

Posted by on May 13, 2011 in Pengantar Web Science

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: