5 thách thức lớn của công nghệ tìm kiếm kế tiếp

Danh thắng & Di tích Hà Nội - Ngày đăng : 07:38, 08/06/2009

Máy tìm kiếm Bing của Microsoft mới ra đời trong khi Wikia.com dừng h?n dự án và  Cuil.com vẫn không mấy tiếng tăm. Khoảng 3 năm trở lại đây, thế giới đang chứng kiến sự quay trở lại của đầu tư và o phát triển thế hệ máy tìm kiếm kế tiếp (Search Engine). Thực tại, Google Search gần như độc chiếm thị trường, vậy nguyên do vì đâu mà  những công ty đã, đang và  sẽ đầu tư nghiên cứu, phát triển Search Engine?

Nhu cầu hiện hữu hoặc chưa hiện hữu. Ngà y nay, chúng ta khá thửa mãn với những gì mà  Google mang lại. Nhưng chưa chắc cảm giác nà y còn tồn tại ở tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ không dừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từ đối thủ và  thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, người viết xin được đưa ra 5 vấn đử lớn mà  các máy tìm kiếm đã, đang và  sẽ cần giải quyết trong tương lai gần.

Thách thức thứ nhất: Dữ liệu Web 2.0

Không cần phải đử cập nhiửu, sự bùng nổ của Web 2.0 kéo theo trà o lưu người dùng tham gia tạo nội dung trên Internet. Sự bùng nổ nà y là  một thách thức lớn với việc xử­ lý dữ liệu trong hệ thống máy tìm kiếm.

Khoảng 5 năm trở lại đây, dữ liệu gia tăng đột biến vử lượng. Lượng dữ liệu nà y tồn tại trên các diễn đà n, blog, wiki, social network, multimedia service,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hà ng ngà y. Bằng giải pháp lưu trữ và  xử­ lý phân tán, máy tìm kiếm hiện tại giải quyết khá hoà n hảo nhiệm vụ nà y. Tuy nhiên, tốc độ tăng trưởng dữ liệu chẳng những không ngừng mà  thậm chí còn mạnh hơn. Аồng nghĩa với nó, chi phí băng thông, phần cứng lưu trữ, năng lực phần mửm, năng lượng,... duy trì trung tâm dữ liệu sẽ tăng lên đặt ra những thách thức vử giá: giá phát triển và  giá vận hà nh hệ thống search engine.
Không phải bất cứ nhà  quản trị nà o cũng muốn Google đánh chỉ mục Website của họ. Và  cũng có rất nhiửu trang bắt người dùng đăng ký thà nh viên mới cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là  một lần trang Web bị ngốn băng thông rất lớn, có thể vượt xa với lượng người và o trang mỗi ngà y.

Dịch vụ mạng 2.0 bùng nổ, dữ liệu cá nhân được sinh ra và  tồn tại trên Internet ngà y cà ng nhiửu. Chúng có thể được bảo vệ bởi sự riêng tư hoặc rất khó truy vấn theo phương pháp lần liên kết (link) thông thường. Hơn nữa, nhiửu Web 2.0 sử­ dụng script để sinh URL hoặc chọn phương thức Post (HTTP Post) khi truy vấn dữ liệu. Vậy là m sao để máy tìm kiếm có thể quét hết dữ liệu trên Internet? Аây là  một thách thức khó khăn đặt ra cho Crawler của các Search Engine. Dĩ nhiên, không phải đến thời 2.0, Search Engine mới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mạng dịch vụ dữ liệu bùng nổ, Invisible web trở nên phức tạp và  và  rắc rối hơn nhiửu.

Cập nhật dữ liệu thời gian thực cũng là  một nhu cầu. Bà i báo đăng tải trên CNN có thể dễ dà ng tìm thấy ngay khi có truy vấn gử­i tới Google. Cập nhật thời gian thực với một lượng nhử dữ liệu thì không quá khó khăn, nhưng các máy tìm kiếm phải xử­ lý đến hà ng tỉ loại dữ liệu trong một ngà y. Аây là  thách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.

Thách thức thứ hai: Lọc bử dữ liệu rác và  trùng lặp

Như đã đử cập ở phần trên, chi phí vử mặt lưu trữ phải được tính toán sao cho rẻ nhất. Do đó, cà ng ít dữ liệu nháp, ít dữ liệu trùng lặp cà ng tốt. Những dữ liệu kiểu nà y còn ảnh hưởng đến tốc độ tiếp cận và  chất lượng kết quả search trả vử cho người dùng. Trong khi vấn nạn thư rác đang hoà nh hoà nh thì vấn nạn dữ liệu rác cũng là m đau đầu các công cụ tìm kiếm. Dữ liệu rác và  trùng lặp bao gồm:

- Một dữ liệu được trử đến từ nhiửu liên kết khác nhau trong Website hoặc thay đổi với mỗi lần truy xuất đến do cơ chế quản lý vử session.

- Dữ liệu được nhân bản bởi con người hoặc tự động lan truyửn bằng phần mửm.

- SEO (Search Engine Optimization - tối ưu hóa kết quả tìm kiếm bằng thủ thuật để xuất hiện ở vị trí cao) và  việc tạo tag khiến máy tìm kiếm nhiễu loạn trong đánh giá giá trị dữ liệu.

Chẳng hạn, rất nhiửu Website Việt Nam sử­ dụng vBulletin để tạo forum cho cộng đồng của họ đã bị các công cụ spam đến từ nước Nga tạo hà ng loạt những nội dung không là nh mạnh trên đó. Một trường hợp khác, Yahoo Search cung cấp API cho Meta Data Search nhưng Google lại đánh chỉ mục chúng và  những kết quả nà y có thể trả vử khi người dùng truy vấn tới Google Search.

Liệu máy tìm kiếm hiện đại đủ tốt để xử­ lý hết tất cả vấn đử nà y?

Thách thức thứ ba: Vertical Search và  các hình thái truy vấn dữ liệu

Với một từ khóa, ta có thể nhận lại hà ng trăm triệu trang Web chứa nó từ Search Engine. Nhưng thực sự, chúng ta không cần nhiửu đến thế. Chẳng hạn khi tìm chữ Nokia, tôi muốn nhận lại các kết quả từ các trang rao bán điện thoại Nokia cũ. Là m ơn đừng trả lại tin tức hay địa chỉ cử­a hà ng bán điện thoại Nokia mới. "Kử¹ năng" tìm kiếm được sử­ dụng để thêm lần nữa người dùng tự sà ng lọc kết quả trả vử. Nhưng tương lai sẽ không dễ dà ng như thế. Hà ng tỉ, hà ng tỉ trang web có thể được trả đến bạn. Mọi kử¹ năng trở nên vô tác dụng với lượng dữ liệu quá lớn.

Do đó, Search Engine phải biết khoanh vùng dữ liệu. Cụ thể hơn là  chia nhử vùng dữ liệu để giới hạn phạm vi truy vấn giúp người dùng tiếp cận nhanh và  chính xác hơn. Thêm nữa, do đặc thù dữ liệu, tin tức, giá cả hà ng hóa, chứng khoán, kiếm việc,... cần cập nhật thường xuyên với tốc độ nhanh hơn các thảo luận trên diễn đà n hoặc blog. Chia nhử vùng dữ liệu nằm cả ở khía cạnh quét, lưu trữ và  tìm kiếm dữ liệu.

Máy tìm kiếm thế hệ cũ: Hãy đưa tôi từ khóa, tôi cho bạn những trang web có chứa nó?

Người sử­ dụng hiện đại: Hãy trả tôi những kết quả đáng quan tâm chứ không phải tất cả nhé!

ử’! Vâng. Người dùng thông minh đòi hửi những cách thức truy vấn dữ liệu linh hoạt hơn chứ không phải chỉ riêng từ khóa tìm kiếm. Truy vấn có sà ng lọc sẽ giúp máy tìm kiếm trả vử kết quả tốt hơn. Những truy vấn đòi hửi sà ng lọc vử mặt thời điểm, lĩnh vực, địa danh, nhân vật,... và  đặc biệt sà ng lọc theo khía cạnh bản địa. Văn hóa Аông à có những nét rất khác với văn hóa Tây à. Phương Аông và  phương Tây quy ước những chuẩn mực xã hội khác nhau, điửu nà y ảnh hưởng đến việc tiếp cận thông tin khác nhau. Do đó, máy tìm kiếm phải thật khéo mới thửa mãn tất cả yêu cầu đến từ nhiửu nơi trên thế giới.

Thách thức thứ 4: Tăng cường ngữ nghĩa

Ngữ nghĩa, trước mắt được đử đử cập ở hai khía cạnh:

- Bổ sung nội dung liên quan trong kết quả tìm kiếm.

- Rút trích ý hoặc tóm tắt nội dung giúp người dùng tiếp cận hoặc rà  soát nhanh hơn.

Internet giống như mạng nhện cả ở khía cạnh vật lý lẫn những trang web tồn tại trên nó. Các liên kết rà ng buộc, đan xem, chỉ trử tới nhau tạo thà nh một mạng lưới. Nếu suy luận xa hơn một chút, dữ liệu tồn tại trên Internet cũng cần như vậy. Cùng đử cập đến cúm H1N1, nội dung tồn tại cả ở blog, forum, tin tức, ... hay bất cứ một loại hình message nà o khác. Người dùng có thể tạo link để chúng trử tới nhau, nhưng nếu các máy tìm kiếm biết cách tập hợp và  liên kết chúng lại thì sẽ hiệu quả hơn nhiửu. Rà ng buộc dữ liệu giúp máy tìm kiếm trả vử cả những trang web có chứa từ "cúm Mexico" mặc dù người dùng chỉ nhập và o từ "H1N1".

Rút trích ý, thông tin hay tóm tắt nội dung cũng là  một nhu cầu trong các máy tìm kiếm. Chẳng hạn, tìm kiếm hồ sơ tuyển dụng, người dùng sẽ nhanh chóng muốn tiếp cận những thông tin như mức lương, yêu cầu số năm kinh nghiệm,... Một ví dụ khác như với bản tin rao vặt, giá cả, điện thoại và  địa chỉ liên hệ, thời gian rao bán,... sẽ rất cần thiết với người dùng. Giải quyết được kử¹ thuật nà y, Search Engine sẽ tiết kiệm khá nhiửu thời gian cho người dùng. Mà  thời gian cũng là  tiửn bạc.

Data mining, với một lượng nhử dữ liệu thì công nghệ hiện tại đã đủ giải quyết tốt yêu cầu. Nhưng một tập dữ liệu cực lớn thì quả là  thách thức. Lý thuyết data mining đặt nửn móng từ rất lâu nhưng việc ứng dụng và o hệ thống tìm kiếm hiện nay thì chưa nhiửu hoặc chưa thể hiện được giá trị. Hy vọng một tương lai không xa, người dùng sẽ được tận hưởng khả năng nà y.

Thách thức thứ 5: Máy tìm kiếm không chỉ đánh chỉ mục web

Người dùng đang quen dần với việc nhử vả mọi thứ và o các máy tìm kiếm. Ví dụ: tôi muốn nó giải hộ một phương trình bậc 3 có vẽ đồ thị, định giá một khu nhà  ở trung tâm quận 3 - Tp Hồ Chí Minh,... Google ngay từ những ngà y đầu đã nhen nhóm ý tưởng nà y. Bạn thử­ gõ "1+1" và o Google search xem.

Tuy nhiên Google đã không hoặc vẫn chưa phát triển theo hướng đó. Wolfram ra đời như một bổ sung. Hãy khoan. Xin đừng cố gắng phân biệt Wolfram khác với Google. Hãy thử­ hợp nhất cả hai dịch vụ nà y để trở thà nh một dịch vụ có thể trả lời mọi thứ. Khi đó, máy tìm kiếm sẽ trở thà nh một bộ não vĩ đại có khả năng tính toán, suy luận và  nhớ một hà m lượng thông tin cực lớn cho loà i người.

Bạn có muốn dùng một dịch vụ như vậy? Nó quá lý tưởng đúng không? Hãy chử nhé bởi Bing.com, Google.com hoặc Wolframalpha.com trong tương lai có thể trở thà nh một máy tìm kiếm như vậy.

Chú thích:
- Crawler: Chương trình phần mửm quét các trang Web để đánh chỉ mục phục vụ tìm kiếm.
- Indexing: Аánh chỉ mục nội dung theo từ khóa phục phụ cho tìm kiếm theo từ khóa.
- Invisible Web: Web ẩn dữ liệu. Việc truy vấn được dữ liệu không phải qua địa chỉ hoặc liên kết thông thường, chúng có thể truy vấn được qua nhập liệu hoặc các phương pháp giấu liên kết.
- Data mining: Một lĩnh vực trong nghà nh điện toán vử phân tích ngữ nghĩa dữ liệu.

VNN