Teknologi Pencarian

Teknologi Pencarian

Teknologi Pencarian  : Masing-masing dari kita telah dihadapkan dengan masalah mencari informasi lebih dari sekali. Terlepas dari sumber data yang kita gunakan (Internet, sistem file pada hard drive kita, basis data atau sistem informasi global dari perusahaan besar) masalahnya dapat berlipat ganda dan mencakup volume fisik basis data yang dicari, informasi yang tidak terstruktur , berbagai jenis file dan juga kerumitan kata-kata yang akurat dalam kueri penelusuran. Kami telah mencapai tahap ketika jumlah data pada satu PC sebanding dengan jumlah data teks yang disimpan di perpustakaan yang tepat.

Dan untuk aliran data yang tidak terstruktur, di masa depan mereka hanya akan meningkat, dan dengan tempo yang sangat cepat. Jika untuk rata-rata pengguna ini mungkin hanya kemalangan kecil, untuk perusahaan besar tidak adanya kontrol atas informasi dapat berarti masalah yang signifikan. Jadi kebutuhan untuk menciptakan sistem dan teknologi pencarian yang menyederhanakan dan mempercepat akses ke informasi yang diperlukan, sudah ada sejak lama.

Sistem seperti itu sangat banyak dan terlebih lagi tidak semuanya didasarkan pada teknologi yang unik. Dan tugas memilih yang tepat tergantung langsung pada tugas spesifik yang harus diselesaikan di masa depan. Sementara permintaan akan alat pencarian dan pemrosesan data yang sempurna terus berkembang, mari kita pertimbangkan keadaan dari sisi penawaran.

Tidak masuk jauh ke dalam berbagai kekhasan teknologi, semua program dan sistem pencarian dapat dibagi menjadi tiga kelompok. Ini adalah: sistem Internet global, solusi bisnis turnkey (teknologi pencarian dan pemrosesan data perusahaan) dan pencarian frasa atau file sederhana di komputer lokal. Arah yang berbeda mungkin berarti solusi yang berbeda.

Pencarian lokal

Semuanya jelas tentang pencarian di PC lokal. Ini tidak luar biasa untuk fitur fungsionalitas tertentu menerima untuk pilihan jenis file (media, teks dll) dan tujuan pencarian. Cukup masukkan nama file yang dicari (atau bagian dari teks, misalnya dalam format Word) dan hanya itu. Kecepatan dan hasil bergantung sepenuhnya pada teks yang dimasukkan ke dalam baris kueri. Tidak ada intelektualitas dalam hal ini: hanya melihat-lihat file yang tersedia untuk menentukan relevansinya. Ini dalam arti yang dapat dijelaskan: apa gunanya menciptakan sistem yang canggih untuk kebutuhan yang tidak rumit seperti itu.

Teknologi pencarian global

Masalah berdiri sangat berbeda dengan sistem pencarian yang beroperasi di jaringan global. Seseorang tidak bisa hanya mengandalkan melihat melalui data yang tersedia. Volume besar (Yandex misalnya dapat membanggakan kapasitas pengindeksan lebih dari 11 terabyte data) dari kekacauan global informasi tidak terstruktur akan membuat pencarian sederhana tidak hanya tidak efektif tetapi juga memakan waktu lama dan tenaga. Itulah sebabnya akhir-akhir ini fokus telah bergeser ke arah pengoptimalan dan peningkatan karakteristik kualitas penelusuran. Tetapi skemanya masih sangat sederhana (kecuali untuk inovasi rahasia dari setiap sistem yang terpisah). Pencarian frasa melalui basis data yang diindeks dengan pertimbangan yang tepat untuk morfologi dan sinonim.

Tidak diragukan lagi, pendekatan seperti itu berhasil tetapi tidak menyelesaikan masalah sepenuhnya. Membaca lusinan berbagai artikel yang didedikasikan untuk meningkatkan pencarian dengan bantuan Google atau Yandex, orang dapat menyimpulkan bahwa tanpa mengetahui peluang tersembunyi dari sistem ini, menemukan dokumen yang relevan dengan kueri adalah masalah lebih dari satu menit, dan terkadang lebih dari satu jam. Masalahnya adalah realisasi pencarian seperti itu sangat tergantung pada kata atau frase query, yang dimasukkan oleh pengguna. Semakin tidak jelas kuerinya, semakin buruk pencariannya. Ini telah menjadi aksioma, atau dogma, mana saja yang Anda inginkan.

Tentu saja, dengan cerdas menggunakan fungsi-fungsi utama dari sistem pencarian dan dengan tepat mendefinisikan frasa yang digunakan untuk mencari dokumen dan situs, adalah mungkin untuk mendapatkan hasil yang dapat diterima. Tapi ini akan menjadi hasil kerja mental yang melelahkan dan waktu yang terbuang untuk mencari informasi yang tidak relevan dengan harapan setidaknya menemukan beberapa petunjuk tentang cara meningkatkan permintaan pencarian. Secara umum, skemanya adalah sebagai berikut: masukkan frasa, lihat beberapa hasil, pastikan bahwa kueri itu tidak benar, masukkan frasa baru dan tahapan diulang hingga relevansi hasil mencapai tingkat setinggi mungkin. Tetapi bahkan dalam kasus itu peluang untuk menemukan dokumen yang tepat masih sedikit.

Tidak ada pengguna rata-rata yang akan secara sukarela mencari kecanggihan “pencarian lanjutan” (meskipun dilengkapi dengan sejumlah fungsi yang sangat berguna seperti pilihan bahasa, format file, dll.). Yang terbaik adalah dengan hanya memasukkan kata atau frase dan mendapatkan jawaban yang siap, tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kuda itu berpikir – ia memiliki kepala yang besar. Mungkin ini tidak tepat sasaran, tetapi salah satu fungsi pencarian Google disebut “Saya merasa beruntung!” mencirikan dengan sangat baik teknologi pencarian yang ada. Namun demikian, teknologi bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda membiarkan kompleksitas pencarian melalui kekacauan volume data Internet, itu bisa diterima.

Sistem perusahaan

Yang ketiga dalam daftar adalah solusi turnkey berdasarkan teknologi pencarian. Mereka dimaksudkan untuk perusahaan dan perusahaan yang serius, memiliki basis data yang sangat besar dan staf dengan segala macam sistem informasi dan dokumen. Pada prinsipnya, teknologi itu sendiri juga dapat digunakan untuk kebutuhan rumah. Misalnya, seorang programmer yang bekerja dari jarak jauh dari kantor akan memanfaatkan pencarian untuk mengakses secara acak yang terletak di kode sumber program hard drive-nya. Tapi ini adalah hal-hal khusus. Aplikasi utama dari teknologi ini masih memecahkan masalah pencarian yang cepat dan akurat melalui volume data yang besar dan bekerja dengan berbagai sumber informasi.

Sistem seperti itu biasanya beroperasi dengan skema yang sangat sederhana (walaupun tidak diragukan lagi ada banyak metode unik pengindeksan dan pemrosesan kueri di bawah permukaan): pencarian phrasal, dengan pertimbangan yang tepat untuk semua bentuk batang, sinonim, dll. yang sekali lagi membawa kita ke masalah dari sumber daya manusia. Saat menggunakan teknologi seperti itu, pengguna harus terlebih dahulu mengucapkan frasa kueri yang akan menjadi kriteria pencarian dan mungkin terpenuhi dalam dokumen yang diperlukan untuk diambil. Tetapi tidak ada jaminan bahwa pengguna akan dapat secara mandiri memilih atau mengingat frasa yang benar dan lebih jauh lagi, pencarian dengan frasa ini akan memuaskan.

Satu lagi momen penting adalah kecepatan pemrosesan kueri. Tentu saja, saat menggunakan seluruh dokumen alih-alih beberapa kata, akurasi pencarian meningkat berlipat ganda. Namun hingga saat ini, kesempatan tersebut belum dimanfaatkan karena kapasitas yang tinggi dari proses tersebut. Intinya adalah bahwa pencarian dengan kata-kata atau frase tidak akan memberikan kita kesamaan hasil yang sangat relevan. Dan pencarian dengan frase yang sama panjangnya seluruh dokumen menghabiskan banyak waktu dan sumber daya komputer.

Berikut ini contohnya: saat memproses kueri dengan satu kata, tidak ada perbedaan kecepatan yang signifikan: apakah 0,1 atau 0,001 detik tidak terlalu penting bagi pengguna. Tetapi ketika Anda mengambil dokumen ukuran rata-rata yang berisi sekitar 2000 kata unik, maka pencarian dengan pertimbangan morfologi (bentuk batang) dan tesaurus (sinonim), serta menghasilkan daftar hasil yang relevan jika pencarian dengan kata kunci akan memakan waktu. beberapa lusin menit (yang tidak dapat diterima oleh pengguna).

Ringkasan sementara

Seperti yang kita lihat, sistem dan teknologi pencarian yang ada saat ini, meskipun berfungsi dengan baik, tidak menyelesaikan masalah pencarian sepenuhnya. Di mana kecepatan dapat diterima, relevansi menyisakan lebih banyak yang diinginkan. Jika pencarian akurat dan memadai, itu menghabiskan banyak waktu dan sumber daya. Tentu saja mungkin untuk memecahkan masalah dengan cara yang sangat jelas – dengan meningkatkan kapasitas komputer. Tetapi melengkapi kantor dengan lusinan komputer ultra-cepat yang akan terus memproses pertanyaan phrasal yang terdiri dari ribuan kata unik. Berjuang melalui gigabyte korespondensi masuk, literatur teknis, laporan akhir, dan informasi lainnya lebih dari tidak rasional dan tidak menguntungkan. Ada cara yang lebih baik.

Pencarian konten serupa yang unik

Saat ini banyak perusahaan yang gencar menggarap pengembangan full text search. Kecepatan kalkulasi memungkinkan pembuatan teknologi yang memungkinkan kueri dalam eksponen berbeda dan beragam kondisi tambahan. Pengalaman dalam membuat pencarian phrasal memberi perusahaan-perusahaan ini keahlian untuk lebih mengembangkan dan menyempurnakan teknologi pencarian. Secara khusus, salah satu pencarian paling populer adalah Google, dan salah satu fungsinya disebut “halaman serupa”.

Menggunakan fungsi ini memungkinkan pengguna untuk melihat halaman dengan kemiripan maksimum dalam konten mereka dengan halaman sampel. Berfungsi pada prinsipnya, fungsi ini belum memungkinkan mendapatkan hasil yang relevan – sebagian besar tidak jelas dan relevansinya rendah. Dan lebih jauh lagi, terkadang penggunaan fungsi ini menunjukkan tidak adanya halaman serupa sebagai hasilnya. Kemungkinan besar, ini adalah hasil dari sifat informasi yang kacau dan tidak terstruktur di Internet. Tapi begitu preseden telah dibuat, munculnya pencarian sempurna tanpa hambatan hanyalah masalah waktu.

Apa yang menyangkut pemrosesan data perusahaan dan sistem pengambilan pengetahuan, di sini masalahnya jauh lebih buruk. Teknologi yang berfungsi (tidak ada di atas kertas) sangat sedikit. Dan sejauh ini tidak ada raksasa atau yang disebut sebagai guru teknologi pencarian yang berhasil menciptakan pencarian konten yang serupa. Mungkin, alasannya tidak terlalu dibutuhkan, mungkin – terlalu sulit untuk diterapkan. Tapi ada juga yang berfungsi.

Teknologi Pencarian SoftInform, yang dikembangkan oleh SoftInform, adalah teknologi untuk mencari dokumen yang isinya mirip dengan sampel. Ini memungkinkan pencarian yang cepat dan akurat untuk dokumen dengan konten serupa dalam volume data apa pun. Teknologi ini didasarkan pada model matematika untuk menganalisis struktur dokumen dan memilih kata, kombinasi kata, dan susunan teks, yang menghasilkan daftar dokumen dengan kemiripan maksimum sampel teks abstrak dengan persentase relevansi yang ditentukan.

Berbeda dengan pencarian phrasal standar dengan pencarian konten serupa. Tidak perlu menentukan kata kunci terlebih dahulu – pencarian dilakukan melalui seluruh dokumen. Teknologi ini bekerja dengan beberapa sumber informasi yang dapat disimpan baik dalam file teks format txt, doc, rtf, pdf, htm, html, dan sistem informasi basis data paling populer (Access, MS SQL, Oracle, serta sebagai basis data pendukung SQL). Ini juga mendukung fungsi sinonim dan kata-kata penting yang memungkinkan untuk melakukan pencarian yang lebih spesifik.

Teknologi pencarian serupa memungkinkan untuk secara signifikan memotong waktu yang terbuang untuk mencari dan meninjau dokumen yang sama atau sangat mirip, mengurangi waktu pemrosesan pada tahap memasukkan data ke dalam arsip dengan menghindari duplikasi dokumen dan membentuk kumpulan data oleh subjek tertentu. Keuntungan lain dari teknologi SoftInform adalah tidak begitu sensitif terhadap kapasitas komputer dan memungkinkan pemrosesan data dengan kecepatan yang sangat tinggi bahkan pada komputer kantor biasa.

Teknologi ini bukan hanya pengembangan teoritis. Ini telah diuji dan berhasil diimplementasikan dalam proyek pemberian nasihat hukum melalui telepon, di mana kecepatan pencarian informasi sangat penting. Dan itu tidak diragukan lagi akan lebih berguna dalam basis pengetahuan, layanan analitis, dan departemen dukungan di perusahaan besar mana pun.

Universalitas dan efektivitas Teknologi Pencarian SoftInform memungkinkan pemecahan spektrum masalah yang luas, yang timbul saat memproses informasi. Hal ini meliputi ketidakjelasan informasi (pada tahap pemasukan dokumen dimungkinkan untuk segera menentukan apakah dokumen tersebut sudah termasuk dalam basis data atau tidak) dan analisis kesamaan dokumen yang sudah masuk ke basis data, dan pencarian untuk dokumen semantik serupa yang menghemat waktu yang dihabiskan untuk memilih kata kunci yang sesuai dan melihat dokumen yang tidak relevan.

Perspektif

Selain tugas utamanya (pencarian informasi yang cepat dan berkualitas tinggi dalam volume besar seperti teks, arsip, basis data), arah Internet juga dapat ditentukan. Misalnya, dimungkinkan untuk membuat sistem pakar untuk memproses korespondensi. Dan berita masuk yang akan menjadi alat penting bagi analis dari berbagai perusahaan. Terutama, ini akan di mungkinkan karena teknologi pencarian konten serupa yang unik. Tidak ada di salah satu sistem yang ada sejauh ini kecuali untuk SearchInform.

Masalah mesin pencari spam dengan apa yang disebut pintu (halaman tersembunyi dengan kata kunci mengarahkan ke halaman utama situs dan digunakan untuk meningkatkan peringkat halaman dengan mesin pencari) dan masalah email spam (analisis yang lebih intelektual akan memastikan lebih tinggi tingkat keamanan) juga akan diselesaikan dengan bantuan teknologi ini. Tetapi perspektif yang paling menarik dari teknologi SoftInform Search adalah menciptakan mesin pencari Internet baru. Keunggulan kompetitif utamanya adalah kemampuan untuk mencari tidak hanya dengan kata kunci, tetapi juga untuk halaman web serupa. Yang akan menambah fleksibilitas pencarian. sehingga lebih nyaman dan efisien.

Untuk menarik kesimpulan, dapat di nyatakan dengan keyakinan bahwa masa depan adalah milik teknologi pencarian teks lengkap, baik di Internet dan sistem pencarian perusahaan. Potensi pengembangan yang tidak terbatas, kecukupan hasil. Dan kecepatan pemrosesan dari berbagai ukuran kueri membuat teknologi ini jauh lebih nyaman dan di minati. Teknologi SoftInform Search mungkin bukan pelopor, tetapi berfungsi, stabil, dan unik tanpa analog yang ada (yang dapat di buktikan dengan paten Eurasia aktif). Menurut saya, bahkan dengan bantuan “pencarian serupa” akan sulit untuk menemukan teknologi serupa.

Teknologi