5 thách thức lớn của công nghệ tìm kiếm kế tiếp

VNN| 08/06/2009 07:38

Máy tìm kiếm Bing của Microsoft mới ra đời trong khi Wikia.com dừng h?n dự án và  Cuil.com vẫn không mấy tiếng tăm. Khoảng 3 năm trở lại đây, thế giới đang chứng kiến sự quay trở lại của đầu tư và o phát triển thế hệ máy tìm kiếm kế tiếp (Search Engine). Thực tại, Google Search gần như độc chiếm thị trường, vậy nguyên do vì đâu mà  những công ty đã, đang và  sẽ đầu tư nghiên cứu, phát triển Search Engine?

Nhu cầu hiện hữu hoặc chưa hiện hữu. Ngà y nay, chúng ta khá thửa mãn với những gì mà  Google mang lại. Nhưng chưa chắc cảm giác nà y còn tồn tại ở tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ không dừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từ đối thủ và  thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, người viết xin được đưa ra 5 vấn đử lớn mà  các máy tìm kiếm đã, đang và  sẽ cần giải quyết trong tương lai gần.

Thách thức thứ nhất: Dữ liệu Web 2.0

Không cần phải đử cập nhiửu, sự bùng nổ của Web 2.0 kéo theo trà o lưu người dùng tham gia tạo nội dung trên Internet. Sự bùng nổ nà y là  một thách thức lớn với việc xử­ lý dữ liệu trong hệ thống máy tìm kiếm.

Khoảng 5 năm trở lại đây, dữ liệu gia tăng đột biến vử lượng. Lượng dữ liệu nà y tồn tại trên các diễn đà n, blog, wiki, social network, multimedia service,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hà ng ngà y. Bằng giải pháp lưu trữ và  xử­ lý phân tán, máy tìm kiếm hiện tại giải quyết khá hoà n hảo nhiệm vụ nà y. Tuy nhiên, tốc độ tăng trưởng dữ liệu chẳng những không ngừng mà  thậm chí còn mạnh hơn. Аồng nghĩa với nó, chi phí băng thông, phần cứng lưu trữ, năng lực phần mửm, năng lượng,... duy trì trung tâm dữ liệu sẽ tăng lên đặt ra những thách thức vử giá: giá phát triển và  giá vận hà nh hệ thống search engine.
Không phải bất cứ nhà  quản trị nà o cũng muốn Google đánh chỉ mục Website của họ. Và  cũng có rất nhiửu trang bắt người dùng đăng ký thà nh viên mới cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là  một lần trang Web bị ngốn băng thông rất lớn, có thể vượt xa với lượng người và o trang mỗi ngà y.

Dịch vụ mạng 2.0 bùng nổ, dữ liệu cá nhân được sinh ra và  tồn tại trên Internet ngà y cà ng nhiửu. Chúng có thể được bảo vệ bởi sự riêng tư hoặc rất khó truy vấn theo phương pháp lần liên kết (link) thông thường. Hơn nữa, nhiửu Web 2.0 sử­ dụng script để sinh URL hoặc chọn phương thức Post (HTTP Post) khi truy vấn dữ liệu. Vậy là m sao để máy tìm kiếm có thể quét hết dữ liệu trên Internet? Аây là  một thách thức khó khăn đặt ra cho Crawler của các Search Engine. Dĩ nhiên, không phải đến thời 2.0, Search Engine mới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mạng dịch vụ dữ liệu bùng nổ, Invisible web trở nên phức tạp và  và  rắc rối hơn nhiửu.

Cập nhật dữ liệu thời gian thực cũng là  một nhu cầu. Bà i báo đăng tải trên CNN có thể dễ dà ng tìm thấy ngay khi có truy vấn gử­i tới Google. Cập nhật thời gian thực với một lượng nhử dữ liệu thì không quá khó khăn, nhưng các máy tìm kiếm phải xử­ lý đến hà ng tỉ loại dữ liệu trong một ngà y. Аây là  thách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.

Thách thức thứ hai: Lọc bử dữ liệu rác và  trùng lặp

Như đã đử cập ở phần trên, chi phí vử mặt lưu trữ phải được tính toán sao cho rẻ nhất. Do đó, cà ng ít dữ liệu nháp, ít dữ liệu trùng lặp cà ng tốt. Những dữ liệu kiểu nà y còn ảnh hưởng đến tốc độ tiếp cận và  chất lượng kết quả search trả vử cho người dùng. Trong khi vấn nạn thư rác đang hoà nh hoà nh thì vấn nạn dữ liệu rác cũng là m đau đầu các công cụ tìm kiếm. Dữ liệu rác và  trùng lặp bao gồm:

- Một dữ liệu được trử đến từ nhiửu liên kết khác nhau trong Website hoặc thay đổi với mỗi lần truy xuất đến do cơ chế quản lý vử session.

- Dữ liệu được nhân bản bởi con người hoặc tự động lan truyửn bằng phần mửm.

- SEO (Search Engine Optimization - tối ưu hóa kết quả tìm kiếm bằng thủ thuật để xuất hiện ở vị trí cao) và  việc tạo tag khiến máy tìm kiếm nhiễu loạn trong đánh giá giá trị dữ liệu.

Chẳng hạn, rất nhiửu Website Việt Nam sử­ dụng vBulletin để tạo forum cho cộng đồng của họ đã bị các công cụ spam đến từ nước Nga tạo hà ng loạt những nội dung không là nh mạnh trên đó. Một trường hợp khác, Yahoo Search cung cấp API cho Meta Data Search nhưng Google lại đánh chỉ mục chúng và  những kết quả nà y có thể trả vử khi người dùng truy vấn tới Google Search.

Liệu máy tìm kiếm hiện đại đủ tốt để xử­ lý hết tất cả vấn đử nà y?

Thách thức thứ ba: Vertical Search và  các hình thái truy vấn dữ liệu

Với một từ khóa, ta có thể nhận lại hà ng trăm triệu trang Web chứa nó từ Search Engine. Nhưng thực sự, chúng ta không cần nhiửu đến thế. Chẳng hạn khi tìm chữ Nokia, tôi muốn nhận lại các kết quả từ các trang rao bán điện thoại Nokia cũ. Là m ơn đừng trả lại tin tức hay địa chỉ cử­a hà ng bán điện thoại Nokia mới. "Kử¹ năng" tìm kiếm được sử­ dụng để thêm lần nữa người dùng tự sà ng lọc kết quả trả vử. Nhưng tương lai sẽ không dễ dà ng như thế. Hà ng tỉ, hà ng tỉ trang web có thể được trả đến bạn. Mọi kử¹ năng trở nên vô tác dụng với lượng dữ liệu quá lớn.

Do đó, Search Engine phải biết khoanh vùng dữ liệu. Cụ thể hơn là  chia nhử vùng dữ liệu để giới hạn phạm vi truy vấn giúp người dùng tiếp cận nhanh và  chính xác hơn. Thêm nữa, do đặc thù dữ liệu, tin tức, giá cả hà ng hóa, chứng khoán, kiếm việc,... cần cập nhật thường xuyên với tốc độ nhanh hơn các thảo luận trên diễn đà n hoặc blog. Chia nhử vùng dữ liệu nằm cả ở khía cạnh quét, lưu trữ và  tìm kiếm dữ liệu.

Máy tìm kiếm thế hệ cũ: Hãy đưa tôi từ khóa, tôi cho bạn những trang web có chứa nó?

Người sử­ dụng hiện đại: Hãy trả tôi những kết quả đáng quan tâm chứ không phải tất cả nhé!

ử’! Vâng. Người dùng thông minh đòi hửi những cách thức truy vấn dữ liệu linh hoạt hơn chứ không phải chỉ riêng từ khóa tìm kiếm. Truy vấn có sà ng lọc sẽ giúp máy tìm kiếm trả vử kết quả tốt hơn. Những truy vấn đòi hửi sà ng lọc vử mặt thời điểm, lĩnh vực, địa danh, nhân vật,... và  đặc biệt sà ng lọc theo khía cạnh bản địa. Văn hóa Аông à có những nét rất khác với văn hóa Tây à. Phương Аông và  phương Tây quy ước những chuẩn mực xã hội khác nhau, điửu nà y ảnh hưởng đến việc tiếp cận thông tin khác nhau. Do đó, máy tìm kiếm phải thật khéo mới thửa mãn tất cả yêu cầu đến từ nhiửu nơi trên thế giới.

Thách thức thứ 4: Tăng cường ngữ nghĩa

Ngữ nghĩa, trước mắt được đử đử cập ở hai khía cạnh:

- Bổ sung nội dung liên quan trong kết quả tìm kiếm.

- Rút trích ý hoặc tóm tắt nội dung giúp người dùng tiếp cận hoặc rà  soát nhanh hơn.

Internet giống như mạng nhện cả ở khía cạnh vật lý lẫn những trang web tồn tại trên nó. Các liên kết rà ng buộc, đan xem, chỉ trử tới nhau tạo thà nh một mạng lưới. Nếu suy luận xa hơn một chút, dữ liệu tồn tại trên Internet cũng cần như vậy. Cùng đử cập đến cúm H1N1, nội dung tồn tại cả ở blog, forum, tin tức, ... hay bất cứ một loại hình message nà o khác. Người dùng có thể tạo link để chúng trử tới nhau, nhưng nếu các máy tìm kiếm biết cách tập hợp và  liên kết chúng lại thì sẽ hiệu quả hơn nhiửu. Rà ng buộc dữ liệu giúp máy tìm kiếm trả vử cả những trang web có chứa từ "cúm Mexico" mặc dù người dùng chỉ nhập và o từ "H1N1".

Rút trích ý, thông tin hay tóm tắt nội dung cũng là  một nhu cầu trong các máy tìm kiếm. Chẳng hạn, tìm kiếm hồ sơ tuyển dụng, người dùng sẽ nhanh chóng muốn tiếp cận những thông tin như mức lương, yêu cầu số năm kinh nghiệm,... Một ví dụ khác như với bản tin rao vặt, giá cả, điện thoại và  địa chỉ liên hệ, thời gian rao bán,... sẽ rất cần thiết với người dùng. Giải quyết được kử¹ thuật nà y, Search Engine sẽ tiết kiệm khá nhiửu thời gian cho người dùng. Mà  thời gian cũng là  tiửn bạc.

Data mining, với một lượng nhử dữ liệu thì công nghệ hiện tại đã đủ giải quyết tốt yêu cầu. Nhưng một tập dữ liệu cực lớn thì quả là  thách thức. Lý thuyết data mining đặt nửn móng từ rất lâu nhưng việc ứng dụng và o hệ thống tìm kiếm hiện nay thì chưa nhiửu hoặc chưa thể hiện được giá trị. Hy vọng một tương lai không xa, người dùng sẽ được tận hưởng khả năng nà y.

Thách thức thứ 5: Máy tìm kiếm không chỉ đánh chỉ mục web

Người dùng đang quen dần với việc nhử vả mọi thứ và o các máy tìm kiếm. Ví dụ: tôi muốn nó giải hộ một phương trình bậc 3 có vẽ đồ thị, định giá một khu nhà  ở trung tâm quận 3 - Tp Hồ Chí Minh,... Google ngay từ những ngà y đầu đã nhen nhóm ý tưởng nà y. Bạn thử­ gõ "1+1" và o Google search xem.

Tuy nhiên Google đã không hoặc vẫn chưa phát triển theo hướng đó. Wolfram ra đời như một bổ sung. Hãy khoan. Xin đừng cố gắng phân biệt Wolfram khác với Google. Hãy thử­ hợp nhất cả hai dịch vụ nà y để trở thà nh một dịch vụ có thể trả lời mọi thứ. Khi đó, máy tìm kiếm sẽ trở thà nh một bộ não vĩ đại có khả năng tính toán, suy luận và  nhớ một hà m lượng thông tin cực lớn cho loà i người.

Bạn có muốn dùng một dịch vụ như vậy? Nó quá lý tưởng đúng không? Hãy chử nhé bởi Bing.com, Google.com hoặc Wolframalpha.com trong tương lai có thể trở thà nh một máy tìm kiếm như vậy.

Chú thích:
- Crawler: Chương trình phần mửm quét các trang Web để đánh chỉ mục phục vụ tìm kiếm.
- Indexing: Аánh chỉ mục nội dung theo từ khóa phục phụ cho tìm kiếm theo từ khóa.
- Invisible Web: Web ẩn dữ liệu. Việc truy vấn được dữ liệu không phải qua địa chỉ hoặc liên kết thông thường, chúng có thể truy vấn được qua nhập liệu hoặc các phương pháp giấu liên kết.
- Data mining: Một lĩnh vực trong nghà nh điện toán vử phân tích ngữ nghĩa dữ liệu.

(0) Bình luận
  • Ô Quan Chưởng - Cửa ô cuối cùng của Hà Nội
    Cửa Ô Quan Chưởng nằm ở phía Đông thành Thăng Long xưa, hiện nay thuộc phường Đồng Xuân, quận Hoàn Kiếm, Hà Nội. Đây là một trong những cửa ô quan trọng của thành Thăng Long còn sót lại cho đến ngày nay. Chứng kiến biết bao biến đổi thăng trầm của Thủ đô, giữa phố phường Hà Nội nhộn nhịp hôm nay, Ô Quan Chưởng vẫn sừng sững uy nghiêm, khoác lên mình vẻ đẹp cổ kính, bình yên...
  • Bảo tàng Mỹ thuật ở giữa làng quê (huyện Ba Vì)
    Xứ Đoài là một vùng đất tối cổ - vùng địa văn hoá, địa thi hoạ - nơi mà con người có thể trải nghiệm đời mình trong hệ sinh thái tự nhiên của vùng đất, đi qua những truyền thuyết, cổ tích, để từ đó tạo nên tâm tính, giọng nói đặc trưng của con người xứ Đoài. Nắng và gió, núi và sông xứ Đoài đã gợi cảm hứng sáng tác cho một Tản Đà, một Quang Dũng và nhiều thi nhân, hoạ sĩ: từ Tô Ngọc Vân, Nguyễn Gia Trí đến Sĩ Tốt, Nguyễn Tiến Chung, Nguyễn Tư Nghiêm, Nguyễn Sáng... và những thế hệ văn nghệ sĩ sau này, ở họ đều có những sáng tác xuất sắc về xứ Đoài.
  • Bảo tàng Chiến sĩ cách mạng bị địch bắt tù đày (huyện Phú Xuyên)
    Đi khắp các vùng miền của Tổ quốc, những cựu tù binh Phú Quốc đã sưu tầm kỷ vật, di vật, tranh ảnh có liên quan đến các nhà tù trong hai cuộc kháng chiến chống thực dân Pháp và đế quốc Mỹ xâm lược mà đồng đội và các ông đã trải qua. Hơn 20 năm kiếm tìm và góp nhặt, Bảo tàng Chiến sĩ cách mạng bị địch bắt tù đày, do chính những người cựu tù năm xưa thành lập là những minh chứng chân thực về một thời oanh liệt và hào hùng của dân tộc.
  • Bảo tàng Quê hương phong trào chiếc gậy Trường Sơn (huyệnỨng Hoà)
    Hoà Xá là một làng quê nằm sát bờ tả sông Đáy, thuộc vùng ven chiêm trũng Khu Cháy. Nơi đây sớm có phong trào cách mạng ngay từ những năm 1930, là hậu phương trung thành của cuộc kháng chiến chống Pháp. Trong công cuộc kháng chiến chống Mỹ cứu nước, Hòa Xá được xem là quê hương của phong trào động viên thanh niên lên đường “xẻ dọc Trường Sơn đi cứu nước” và câu chuyện huyền thoại “chiếc gậy Trường Sơn”.
  • Khu Cháy, Bảo tàng Khu Cháy - một địa chỉ đỏ về truyền thống đấu tranh cách mạng ở Ứng Hoà, Phú Xuyên
    “Khu Cháy” là thuật ngữ để nói về một khu du kích trong thời kỳ kháng chiến chống Pháp gồm 22 xã ở phía nam huyện Ứng Hoà và tây huyện Phú Xuyên, Hà Nội.
  • Bảo tàng Tổng cục II (quận Hoàng Mai)
    Toạ lạc tại số 322 đường Lê Trọng Tấn, quận Hoàng Mai, Hà Nội trên khuôn viên rộng 3.500m2, gồm 2 tầng nhà và phần trưng bày ngoài trời, Bảo tàng Tổng cục II hiện lưu giữ 5.830 hiện vật, trong đó có nhiều hiện vật quý hiếm gắn liền với cuộc đời hoạt động của nhiều chiến sĩ tình báo xuất sắc của Quân đội nhân dân Việt Nam. Với chức năng phục vụ công tác nghiên cứu, tham quan học tập, giáo dục truyền thống, Bảo tàng Tổng cục II chính thức được Bộ Văn hoá - Thông tin công nhận nằm trong hệ thống các bảo tàng cấp 2 toàn quân.
Nổi bật Tạp chí Người Hà Nội
  • [Video] Sóng lụa làng nghề Vạn Phúc
    Là một trong những làng nghề thủ công ra đời sớm nhất vùng Đồng bằng sông Hồng cũng như cả nước, làng lụa Vạn Phúc (quận Hà Đông) là làng nghề dệt lụa tơ tằm nổi tiếng từ xa xưa. Nhiều mẫu hoa văn của lụa Vạn Phúc từng được chọn may quốc phục dưới các triều đại phong kiến. Ngày nay, ngoài việc gìn giữ, phát huy giá trị của nghề truyền thống qua các sản phẩm, làng lụa Vạn Phúc còn là điểm đến hấp dẫn của nhiều du khách trong nước và quốc tế.
  • Tọa đàm những vấn đề về kịch bản sân khấu hiện nay
    Với mong muốn tìm ra những nguyên nhân và giải pháp về vấn đề kịch bản sân khấu hiện nay, sáng 22/11, Hội Sân khấu Hà Nội tổ chức tọa đàm “Những vấn đề về kịch bản sân khấu” với sự tham gia của đông đảo hội viên trong hội.
  • [Podcast] Thu Hà Nội – Mùa của tình yêu và nỗi nhớ
    Bốn mùa, xuân, hạ, thu, đông của Hà Nội, mỗi mùa đều mang trong mình nét đẹp riêng bới hương, bởi sắc của mỗi mùa. Nhưng có lẽ, mùa thu vẫn là một mùa thật đặc biệt của Người Hà Nội. Mỗi độ thu về như gói gọn cả một Hà Nội cổ kính, trầm mặc, một Hà Nội thơ mộng và trữ tình. Chính bởi vẻ đẹp đó mà mùa thu đã trở thành nỗi nhớ cho những ai đã từng gắn bó với Hà Nội mà nay phải chia xa, là niềm ước ao một lần được “chạm vào” của nhiều du khách.
  • Triển lãm "Cộng đồng kiến tạo": Vinh danh những đóng góp giá trị cho xã hội
    Sáng 22/11, tại sân Bái Đường, Văn Miếu - Quốc Tử Giám đã diễn ra Triển lãm "Hành động vì cộng đồng" - Human Act Prize 2024 với chủ đề “Cộng đồng kiến tạo”.
  • Đồng chí Nguyễn Việt Phương giữ chức Phó Chủ nhiệm Ủy ban Kiểm tra Thành ủy Hà Nội
    Phó Bí thư Thường trực Huyện ủy Thanh Trì Nguyễn Việt Phương được điều động đến công tác tại Ủy ban Kiểm tra Thành ủy Hà Nội, giữ chức Phó Chủ nhiệm Ủy ban Kiểm tra Thành ủy khóa XVII.
Đừng bỏ lỡ
5 thách thức lớn của công nghệ tìm kiếm kế tiếp
POWERED BY ONECMS - A PRODUCT OF NEKO