5 thách thức lớn của công nghệ tìm kiếm kế tiếp

Danh thắng - Di tích Hà Nội - Ngày đăng : 07:38, 08/06/2009

Máy tìm kiếm Bing của Microsoft mới ra đời trong khi Wikia.com dừng h?n dự án và Cuil.com vẫn không mấy tiếng tăm. Khoảng 3 năm trở lại đây, thế giới đang chứng kiến sự quay trở lại của đầu tư và o phát triển thế hệ máy tìm kiếm kế tiếp (Search Engine). Thực tại, Google Search gần như độc chiếm thị trường, vậy nguyên do vì đâu mà những công ty đã, đang và sẽ đầu tư nghiên cứu, phát triển Search Engine?

Nhu cầu hiện hữu hoặc chưa hiện hữu. Ngà y nay, chúng ta khá thửa mãn với những gì mà Google mang lại. Nhưng chưa chắc cảm giác nà y còn tồn tại ở tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ không dừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từ đối thủ và thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, người viết xin được đưa ra 5 vấn đử lớn mà các máy tìm kiếm đã, đang và sẽ cần giải quyết trong tương lai gần.

Thách thức thứ nhất: Dữ liệu Web 2.0

Không cần phải đử cập nhiửu, sự bùng nổ của Web 2.0 kéo theo trà o lưu người dùng tham gia tạo nội dung trên Internet. Sự bùng nổ nà y là một thách thức lớn với việc xử lý dữ liệu trong hệ thống máy tìm kiếm.

Khoảng 5 năm trở lại đây, dữ liệu gia tăng đột biến vử lượng. Lượng dữ liệu nà y tồn tại trên các diễn đà n, blog, wiki, social network, multimedia service,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hà ng ngà y. Bằng giải pháp lưu trữ và xử lý phân tán, máy tìm kiếm hiện tại giải quyết khá hoà n hảo nhiệm vụ nà y. Tuy nhiên, tốc độ tăng trưởng dữ liệu cháº³ng những không ngừng mà thậm chí còn mạnh hơn. Đồng nghĩa với nó, chi phí băng thông, phần cứng lưu trữ, năng lực phần mửm, năng lượng,... duy trì trung tâm dữ liệu sẽ tăng lên đặt ra những thách thức vử giá: giá phát triển và giá vận hà nh hệ thống search engine.
Không phải bất cứ nhà quản trị nà o cũng muốn Google đánh chỉ mục Website của họ. Và cũng có rất nhiửu trang bắt người dùng đăng ký thà nh viên mới cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là một lần trang Web bị ngốn băng thông rất lớn, có thể vượt xa với lượng người và o trang mỗi ngà y.

Dịch vụ mạng 2.0 bùng nổ, dữ liệu cá nhân được sinh ra và tồn tại trên Internet ngà y cà ng nhiửu. Chúng có thể được bảo vệ bởi sự riêng tư hoặc rất khó truy vấn theo phương pháp lần liên kết (link) thông thường. Hơn nữa, nhiửu Web 2.0 sử dụng script để sinh URL hoặc chọn phương thức Post (HTTP Post) khi truy vấn dữ liệu. Vậy là m sao để máy tìm kiếm có thể quét hết dữ liệu trên Internet? Đây là một thách thức khó khăn đặt ra cho Crawler của các Search Engine. Dĩ nhiên, không phải đến thời 2.0, Search Engine mới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mạng dịch vụ dữ liệu bùng nổ, Invisible web trở nên phức tạp và và rắc rối hơn nhiửu.

Cập nhật dữ liệu thời gian thực cũng là một nhu cầu. Bà i báo đăng tải trên CNN có thể dễ dà ng tìm thấy ngay khi có truy vấn gửi tới Google. Cập nhật thời gian thực với một lượng nhử dữ liệu thì không quá khó khăn, nhưng các máy tìm kiếm phải xử lý đến hà ng tỉ loại dữ liệu trong một ngà y. Đây là thách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.

Thách thức thứ hai: Lọc bử dữ liệu rác và trùng lặp

Như đã đử cập ở phần trên, chi phí vử mặt lưu trữ phải được tính toán sao cho rẻ nhất. Do đó, cà ng ít dữ liệu nháp, ít dữ liệu trùng lặp cà ng tốt. Những dữ liệu kiểu nà y còn ảnh hưởng đến tốc độ tiếp cận và chất lượng kết quả search trả vử cho người dùng. Trong khi vấn nạn thư rác đang hoà nh hoà nh thì vấn nạn dữ liệu rác cũng là m đau đầu các công cụ tìm kiếm. Dữ liệu rác và trùng lặp bao gồm:

- Một dữ liệu được trử đến từ nhiửu liên kết khác nhau trong Website hoặc thay đổi với mỗi lần truy xuất đến do cơ chế quản lý vử session.

- Dữ liệu được nhân bản bởi con người hoặc tự động lan truyửn bằng phần mửm.

- SEO (Search Engine Optimization - tối ưu hóa kết quả tìm kiếm bằng thủ thuật để xuất hiện ở vị trí cao) và việc tạo tag khiến máy tìm kiếm nhiễu loạn trong đánh giá giá trị dữ liệu.

Cháº³ng hạn, rất nhiửu Website Việt Nam sử dụng vBulletin để tạo forum cho cộng đồng của họ đã bị các công cụ spam đến từ nước Nga tạo hà ng loạt những nội dung không là nh mạnh trên đó. Một trường hợp khác, Yahoo Search cung cấp API cho Meta Data Search nhưng Google lại đánh chỉ mục chúng và những kết quả nà y có thể trả vử khi người dùng truy vấn tới Google Search.

Liệu máy tìm kiếm hiện đại đủ tốt để xử lý hết tất cả vấn đử nà y?

Thách thức thứ ba: Vertical Search và các hình thái truy vấn dữ liệu

Với một từ khóa, ta có thể nhận lại hà ng trăm triệu trang Web chứa nó từ Search Engine. Nhưng thực sự, chúng ta không cần nhiửu đến thế. Cháº³ng hạn khi tìm chữ Nokia, tôi muốn nhận lại các kết quả từ các trang rao bán điện thoại Nokia cũ. Là m ơn đừng trả lại tin tức hay địa chỉ cửa hà ng bán điện thoại Nokia mới. "Kử¹ năng" tìm kiếm được sử dụng để thêm lần nữa người dùng tự sà ng lọc kết quả trả vử. Nhưng tương lai sẽ không dễ dà ng như thế. Hà ng tỉ, hà ng tỉ trang web có thể được trả đến bạn. Mọi kử¹ năng trở nên vô tác dụng với lượng dữ liệu quá lớn.

Do đó, Search Engine phải biết khoanh vùng dữ liệu. Cụ thể hơn là chia nhử vùng dữ liệu để giới hạn phạm vi truy vấn giúp người dùng tiếp cận nhanh và chính xác hơn. Thêm nữa, do đặc thù dữ liệu, tin tức, giá cả hà ng hóa, chứng khoán, kiếm việc,... cần cập nhật thường xuyên với tốc độ nhanh hơn các thảo luận trên diễn đà n hoặc blog. Chia nhử vùng dữ liệu nằm cả ở khía cạnh quét, lưu trữ và tìm kiếm dữ liệu.

Máy tìm kiếm thế hệ cũ: Hãy đưa tôi từ khóa, tôi cho bạn những trang web có chứa nó?

Người sử dụng hiện đại: Hãy trả tôi những kết quả đáng quan tâm chứ không phải tất cả nhé!

ử’! Vâng. Người dùng thông minh đòi hửi những cách thức truy vấn dữ liệu linh hoạt hơn chứ không phải chỉ riêng từ khóa tìm kiếm. Truy vấn có sà ng lọc sẽ giúp máy tìm kiếm trả vử kết quả tốt hơn. Những truy vấn đòi hửi sà ng lọc vử mặt thời điểm, lĩnh vực, địa danh, nhân vật,... và đặc biệt sà ng lọc theo khía cạnh bản địa. Văn hóa Đông à có những nét rất khác với văn hóa Tây à. Phương Đông và phương Tây quy ước những chuẩn mực xã hội khác nhau, điửu nà y ảnh hưởng đến việc tiếp cận thông tin khác nhau. Do đó, máy tìm kiếm phải thật khéo mới thửa mãn tất cả yêu cầu đến từ nhiửu nơi trên thế giới.

Thách thức thứ 4: Tăng cường ngữ nghĩa

Ngữ nghĩa, trước mắt được đử đử cập ở hai khía cạnh:

- Bổ sung nội dung liên quan trong kết quả tìm kiếm.

- Rút trích ý hoặc tóm tắt nội dung giúp người dùng tiếp cận hoặc rà soát nhanh hơn.

Internet giống như mạng nhện cả ở khía cạnh vật lý lẫn những trang web tồn tại trên nó. Các liên kết rà ng buộc, đan xem, chỉ trử tới nhau tạo thà nh một mạng lưới. Nếu suy luận xa hơn một chút, dữ liệu tồn tại trên Internet cũng cần như vậy. Cùng đử cập đến cúm H1N1, nội dung tồn tại cả ở blog, forum, tin tức, ... hay bất cứ một loại hình message nà o khác. Người dùng có thể tạo link để chúng trử tới nhau, nhưng nếu các máy tìm kiếm biết cách tập hợp và liên kết chúng lại thì sẽ hiệu quả hơn nhiửu. Rà ng buộc dữ liệu giúp máy tìm kiếm trả vử cả những trang web có chứa từ "cúm Mexico" mặc dù người dùng chỉ nhập và o từ "H1N1".

Rút trích ý, thông tin hay tóm tắt nội dung cũng là một nhu cầu trong các máy tìm kiếm. Cháº³ng hạn, tìm kiếm hồ sơ tuyển dụng, người dùng sẽ nhanh chóng muốn tiếp cận những thông tin như mức lương, yêu cầu số năm kinh nghiệm,... Một ví dụ khác như với bản tin rao vặt, giá cả, điện thoại và địa chỉ liên hệ, thời gian rao bán,... sẽ rất cần thiết với người dùng. Giải quyết được kử¹ thuật nà y, Search Engine sẽ tiết kiệm khá nhiửu thời gian cho người dùng. Mà thời gian cũng là tiửn bạc.

Data mining, với một lượng nhử dữ liệu thì công nghệ hiện tại đã đủ giải quyết tốt yêu cầu. Nhưng một tập dữ liệu cực lớn thì quả là thách thức. Lý thuyết data mining đặt nửn móng từ rất lâu nhưng việc ứng dụng và o hệ thống tìm kiếm hiện nay thì chưa nhiửu hoặc chưa thể hiện được giá trị. Hy vọng một tương lai không xa, người dùng sẽ được tận hưởng khả năng nà y.

Thách thức thứ 5: Máy tìm kiếm không chỉ đánh chỉ mục web

Người dùng đang quen dần với việc nhử vả mọi thứ và o các máy tìm kiếm. Ví dụ: tôi muốn nó giải hộ một phương trình bậc 3 có vẽ đồ thị, định giá một khu nhà ở trung tâm quận 3 - Tp Hồ Chí Minh,... Google ngay từ những ngà y đầu đã nhen nhóm ý tưởng nà y. Bạn thử gõ "1+1" và o Google search xem.

Tuy nhiên Google đã không hoặc vẫn chưa phát triển theo hướng đó. Wolfram ra đời như một bổ sung. Hãy khoan. Xin đừng cố gắng phân biệt Wolfram khác với Google. Hãy thử hợp nhất cả hai dịch vụ nà y để trở thà nh một dịch vụ có thể trả lời mọi thứ. Khi đó, máy tìm kiếm sẽ trở thà nh một bộ não vĩ đại có khả năng tính toán, suy luận và nhớ một hà m lượng thông tin cực lớn cho loà i người.

Bạn có muốn dùng một dịch vụ như vậy? Nó quá lý tưởng đúng không? Hãy chử nhé bởi Bing.com, Google.com hoặc Wolframalpha.com trong tương lai có thể trở thà nh một máy tìm kiếm như vậy.

Chú thích:
- Crawler: Chương trình phần mửm quét các trang Web để đánh chỉ mục phục vụ tìm kiếm.
- Indexing: Đánh chỉ mục nội dung theo từ khóa phục phụ cho tìm kiếm theo từ khóa.
- Invisible Web: Web ẩn dữ liệu. Việc truy vấn được dữ liệu không phải qua địa chỉ hoặc liên kết thông thường, chúng có thể truy vấn được qua nhập liệu hoặc các phương pháp giấu liên kết.
- Data mining: Một lĩnh vực trong nghà nh điện toán vử phân tích ngữ nghĩa dữ liệu.

VNN