Cuộc chiến trình duyệt mới do AI dẫn dắt: Từ tìm kiếm đến đại lý thông minh, tái định hình cổng vào mạng

AI sẽ định hình lại trình duyệt: Xu hướng mới của cuộc chiến trình duyệt lần thứ ba

Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Từ Netscape và IE vào những năm 90, đến Firefox và Chrome, cuộc chiến trình duyệt luôn là biểu hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến của các mô hình công nghệ. Chrome đã giành được vị trí thống trị nhờ tốc độ cập nhật và sự liên kết sinh thái, Google thông qua cấu trúc song đầu ngành của tìm kiếm và trình duyệt, đã hình thành một vòng khép kín cho cổng thông tin.

Nhưng ngày nay, cấu trúc này đang bị lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) đang khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào các trang web truyền thống đang giảm. Đồng thời, tin đồn về việc Apple có thể thay thế công cụ tìm kiếm mặc định trong Safari càng làm tăng thêm mối đe dọa đối với lợi nhuận của Alphabet, và thị trường đã bắt đầu bộc lộ sự bất an đối với "chính thống tìm kiếm".

Trình duyệt cũng đang phải đối mặt với việc tái cấu trúc vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp các khả năng như nhập liệu, hành vi người dùng, danh tính riêng tư, v.v. Mặc dù AI Agent mạnh mẽ, nhưng để thực hiện các tương tác phức tạp trên trang, gọi dữ liệu danh tính cục bộ và kiểm soát các yếu tố trang web, vẫn cần phải dựa vào ranh giới tin cậy và hộp cát chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người thành nền tảng gọi hệ thống cho Agent.

Trình duyệt có còn cần thiết tồn tại không? Chúng tôi tin rằng điều thực sự có thể phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là hiển thị thông tin, mà là gọi nhiệm vụ. Trình duyệt trong tương lai sẽ được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực hiện. Các dự án như Browser Use đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến giao diện trực quan thành văn bản có cấu trúc có thể gọi bởi LLM, thực hiện ánh xạ từ trang đến lệnh, giảm thiểu đáng kể chi phí tương tác.

Các dự án chính đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI để thay thế kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư với suy luận cục bộ, tăng cường chức năng tìm kiếm và chặn bằng LLM; trong khi các dự án gốc Crypto như Donut nhắm vào lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Những dự án này có đặc điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, chứ không phải làm đẹp lớp đầu ra của nó.

Đối với những người khởi nghiệp, cơ hội nằm trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới cho các đại lý trong tương lai, có nghĩa là ai có thể cung cấp các "khối khả năng" có cấu trúc, có thể gọi và đáng tin cậy, người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO(Agent Engine Optimization), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đều đang được cấu trúc lại. Cuộc chiến trình duyệt thứ ba, diễn ra ở "đầu vào" chứ không phải "trưng bày"; điều quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được sự tin tưởng của các đại lý, có được lối vào để gọi.

Lịch sử phát triển của trình duyệt

Vào đầu những năm 90, Netscape Navigator đã mở ra cánh cửa vào thế giới số cho hàng triệu người dùng. Microsoft nhận ra tầm quan trọng của trình duyệt, buộc Internet Explorer phải được gói kèm vào hệ thống Windows, làm suy yếu vị thế thống trị thị trường của Netscape.

Trong hoàn cảnh khó khăn, các kỹ sư của Netscape đã chọn công khai mã nguồn của trình duyệt, mã nguồn này sau đó trở thành nền tảng của dự án Mozilla, cuối cùng được đặt tên là Firefox. Firefox đã đạt được nhiều bước tiến trong trải nghiệm người dùng, hệ sinh thái plugin, an ninh, v.v., đánh dấu chiến thắng của tinh thần mã nguồn mở.

Trong khi đó, trình duyệt Opera ra mắt vào năm 1994, vào năm 2003 đã giới thiệu động cơ Presto tự phát triển, hỗ trợ các công nghệ tiên tiến như CSS và bố cục thích ứng. Cùng năm, Apple đã tung ra trình duyệt Safari. Vào năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản hồi từ thị trường khá bình thường. Thị phần của Firefox đã tăng đều lên khoảng 20%, và sự thống trị của IE dần bị suy giảm.

Chrome ra mắt vào năm 2008, nhanh chóng nổi lên nhờ tần suất cập nhật thường xuyên và trải nghiệm đồng nhất trên tất cả các nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox; sau sáu tháng lại vượt mặt IE, hoàn thành sự chuyển mình từ kẻ thách thức thành người thống trị.

Bước vào thập kỷ 2020, thị phần toàn cầu của Chrome ổn định ở khoảng 65%. Công cụ tìm kiếm Google và trình duyệt Chrome tạo thành cấu trúc độc quyền kép, trong đó công cụ tìm kiếm kiểm soát khoảng 90% lối vào tìm kiếm toàn cầu, trong khi trình duyệt Chrome nắm giữ "cửa sổ đầu tiên" mà hầu hết người dùng truy cập vào mạng.

Với sự nổi lên của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống đã bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%. Tin đồn về việc Apple có thể ra mắt công cụ tìm kiếm AI riêng của mình có khả năng sẽ làm rung chuyển cột trụ lợi nhuận của Alphabet.

Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, cuộc chiến trình duyệt luôn là cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Ai nắm giữ cổng vào, người đó sẽ định nghĩa tương lai.

Trong mắt các VC, dựa trên nhu cầu mới của con người đối với các công cụ tìm kiếm trong thời đại LLM và AI, cuộc chiến trình duyệt lần thứ ba đang dần diễn ra.

Kiến trúc cũ của trình duyệt hiện đại

Kiến trúc trình duyệt truyền thống bao gồm:

  1. Cổng vào phía trước của khách hàng: hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý.

  2. Hiểu biết truy vấn: thực hiện kiểm tra chính tả, mở rộng từ đồng nghĩa, phân tích ý định.

  3. Gọi lại ứng cử viên: Sử dụng chỉ mục đảo ngược và chỉ mục vector để lọc các trang ứng cử viên ban đầu.

  4. Sắp xếp đa cấp: Sử dụng đặc điểm nhẹ để lọc các trang ứng cử xuống khoảng 1000 trang.

  5. Sắp xếp chính trong học sâu: Sử dụng các công nghệ như RankBrain và Neural Matching để hiểu nghĩa của truy vấn.

  6. Sắp xếp sâu: Sử dụng mô hình BERT để xếp hạng tài liệu một cách tinh vi hơn.

Đây là quy trình làm việc điển hình của công cụ tìm kiếm Google. Nhưng trong thời đại AI và dữ liệu lớn hiện nay, người dùng đã phát sinh nhu cầu mới về tương tác với trình duyệt.

AI sẽ định hình lại trình duyệt

Trình duyệt như một cổng thông dụng, không chỉ được sử dụng để đọc dữ liệu mà người dùng còn cần tương tác với dữ liệu. Trình duyệt tự nó là nơi lưu trữ dấu vân tay của người dùng. Những hành vi phức tạp hơn của người dùng và hành vi tự động hóa phải được thực hiện thông qua trình duyệt.

Trình duyệt là nơi lưu trữ nội dung cá nhân hóa:

  • Hầu hết các mô hình lớn được lưu trữ trên đám mây, khó có thể gọi trực tiếp dữ liệu nhạy cảm trên máy.
  • Gửi toàn bộ dữ liệu đến mô hình bên thứ ba, cần phải nhận được sự cho phép lại từ người dùng.
  • Tự động điền mã xác nhận, gọi camera, v.v., phải được thực hiện trong hộp cát của trình duyệt.
  • Ngữ cảnh dữ liệu phụ thuộc nhiều vào trình duyệt, bao gồm các tab, Cookie, v.v.

Cuộc cách mạng sâu sắc trong hình thức tương tác

Hành vi tìm kiếm của người dùng đang tiến hóa. Nghiên cứu năm 2024 cho thấy, trong mỗi 1000 truy vấn Google tại Mỹ, 63% thuộc về hành vi "không nhấp chuột". Người dùng có thói quen lấy thông tin trực tiếp từ trang kết quả tìm kiếm.

Trình duyệt AI vẫn cần khám phá hình thức tương tác phù hợp, đặc biệt là trong việc đọc dữ liệu, vì vấn đề "ảo giác" của các mô hình lớn hiện tại vẫn chưa được khắc phục, nhiều người dùng khó có thể hoàn toàn tin tưởng vào các tóm tắt nội dung được tạo tự động.

Điều thực sự có thể kích thích sự thay đổi lớn trong trình duyệt chính là lớp tương tác dữ liệu. Người dùng ngày càng có xu hướng sử dụng ngôn ngữ tự nhiên để mô tả các nhiệm vụ phức tạp, những Nhiệm vụ Tác động này đang được các AI Agent tiếp quản.

Trình duyệt trong tương lai phải được thiết kế hoàn toàn tự động, xem xét:

  • Làm thế nào để cân bằng trải nghiệm đọc của con người với khả năng giải thích của AI Agent
  • Làm thế nào để phục vụ người dùng và mô hình đại lý trên cùng một trang

Sử Dụng Trình Duyệt

Browser Use đã xây dựng một lớp ngữ nghĩa theo đúng nghĩa, để xây dựng kiến trúc nhận dạng ngữ nghĩa cho thế hệ trình duyệt tiếp theo. Nó đã giải mã lại "DOM = cây nút nhìn thấy" thành "ngữ nghĩa DOM = cây lệnh cho LLM", cho phép đại lý có thể nhấp chuột chính xác, điền và tải lên mà không cần "tọa độ điểm xem".

Đường dẫn này thay thế OCR hình ảnh hoặc tọa độ Selenium bằng "văn bản có cấu trúc → gọi hàm", thực hiện nhanh hơn, tiết kiệm token hơn, ít lỗi hơn. TechCrunch gọi đó là "tầng keo giúp AI thực sự hiểu trang web".

Các đặc điểm chính của Browser Use:

  • Trừu tượng hóa các phần tử tương tác thành các đoạn JSON, kèm theo các siêu dữ liệu như vai trò, khả năng hiển thị, v.v.
  • Chuyển đổi toàn bộ trang thành "danh sách nút ngữ nghĩa phẳng" để LLM đọc một lần.
  • Nhận lệnh cấp cao từ đầu ra LLM, phát lại vào trình duyệt thật

Một khi bộ tiêu chuẩn này được đưa vào W3C, nó có thể giải quyết vấn đề nhập liệu của trình duyệt một cách đáng kể.

ARC

Công ty Browser(Công ty mẹ Arc) sẽ tập trung vào trình duyệt DIA hướng tới AI. Tuy nhiên, dự đoán của họ có sai lệch, không thể phân biệt rõ ràng rằng "tương tác" được cấu thành từ hai chiều: đầu vào và đầu ra.

Ở phía nhập, AI có thể nâng cao hiệu quả tương tác theo mệnh lệnh; nhưng ở phía xuất, sự đánh giá này rõ ràng mất cân bằng, bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa. Trình duyệt, như một nền tảng chứa dữ liệu riêng tư và có khả năng hiển thị đa dạng giao diện sản phẩm, có sự thay thế hạn chế ở tầng nhập, và độ phức tạp ở phía xuất càng làm cho nó khó bị lật đổ.

Để thực sự có thể làm thay đổi Chrome, phải thực hiện việc tái cấu trúc căn bản chế độ kết xuất của trình duyệt, để thích ứng với nhu cầu tương tác dưới sự dẫn dắt của AI Agent, đặc biệt là trong thiết kế cấu trúc phía nhập. Browser Use chú trọng vào sự biến đổi cấu trúc của cơ chế nền tảng của trình duyệt, thúc đẩy "nguyên tử hóa" hoặc "mô-đun hóa", từ đó, khả năng lập trình và kết hợp phát sinh sẽ mang lại tiềm năng đột phá rất mạnh mẽ.

Sự bối rối

Perplexity là một công cụ tìm kiếm AI nổi tiếng với hệ thống gợi ý, với định giá mới nhất là 14 tỷ USD. Đặc điểm chính của nó là tóm tắt trang theo thời gian thực, chiếm ưu thế trong việc lấy thông tin tức thì. Perplexity sẽ phát hành trình duyệt gốc Comet, được tích hợp sâu vào công cụ trả lời.

Tuy nhiên, Perplexity vẫn cần giải quyết vấn đề chi phí tìm kiếm cao và tỷ suất lợi nhuận thấp của người dùng biên. Google cũng đang tích cực tái cấu trúc AI, giới thiệu trải nghiệm AI Model cho tab trình duyệt mới.

Chỉ dựa vào việc bắt chước chức năng bề mặt thì khó có thể thực sự đe dọa Google. Những gì có thể thực sự thiết lập trật tự mới sẽ là việc tái cấu trúc kiến trúc trình duyệt từ cơ sở, tích hợp LLM sâu vào lõi trình duyệt, và thực hiện những thay đổi căn bản trong cách tương tác.

Dũng cảm

Brave là trình duyệt thành công nhất và sớm nhất trong ngành Crypto, dựa trên kiến trúc Chromium. Nó thu hút người dùng bằng mô hình kiếm Token dựa trên quyền riêng tư và duyệt web. Tuy nhiên, nhu cầu về quyền riêng tư vẫn chủ yếu tập trung vào một nhóm người dùng nhất định, khó có thể lật đổ các ông lớn hiện tại.

Số người dùng hoạt động hàng tháng của Brave đạt 82,7 triệu, số người dùng hoạt động hàng ngày là 35,6 triệu, và thị phần khoảng 1%-1,5%. Số lượng tìm kiếm trung bình hàng tháng khoảng 1,34 tỷ lần, tương đương khoảng 0,3% của Google.

Kế hoạch Brave nâng cấp thành trình duyệt AI ưu tiên quyền riêng tư. Tuy nhiên, do hạn chế trong việc thu thập dữ liệu người dùng, mức độ tùy chỉnh của mô hình lớn thấp, điều này không thuận lợi cho việc lặp sản phẩm nhanh chóng và chính xác. Trong kỷ nguyên Trình duyệt Agentic sắp tới, Brave có thể giữ được thị phần ổn định trong nhóm người dùng đặc biệt chú trọng đến quyền riêng tư, nhưng khó trở thành người chơi chính.

Bánh vòng

Dự án khởi nghiệp Crypto Donut đã nhận được 7 triệu USD vốn đầu tư Pre-seed. Tầm nhìn của nó là đạt được khả năng tích hợp "khám phá - quyết định - thực thi gốc mã hóa".

Hướng đi này tập trung vào việc kết hợp các đường dẫn thực thi tự động của tiền mã hóa gốc. Trong tương lai, Agent có khả năng thay thế các công cụ tìm kiếm trở thành cổng truy cập lưu lượng chính, các doanh nhân sẽ cạnh tranh để giành lấy lưu lượng truy cập và chuyển đổi do việc thực thi của Agent mang lại. Ngành công nghiệp đã gọi xu hướng này là "AEO"( Tối ưu hóa động cơ trả lời/Agent Engine Optimization) hoặc "ATF"( Hoàn thành nhiệm vụ Agentic).

Lời khuyên cho các doanh nhân

Trình duyệt vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới Internet. Có khoảng 2,1 tỷ người dùng máy tính để bàn toàn cầu và hơn 4,3 tỷ người dùng di động, nó là phương tiện chung cho việc nhập dữ liệu, hành vi tương tác và lưu trữ dấu vân tay cá nhân.

Đối với các doanh nhân, những gì thật sự có tiềm năng đột phá không phải là tối ưu hóa ở cấp độ "đầu ra trang". Điểm đột phá thực sự nằm ở "bên đầu vào" - làm thế nào để AI Agent chủ động gọi sản phẩm của doanh nhân để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ trở thành yếu tố then chốt quyết định xem sản phẩm trong tương lai có thể tích hợp vào hệ sinh thái Agent, nhận được lưu lượng và phân phối giá trị hay không.

Tìm kiếm thời đại ghép "nhấp"; đại lý thời đại ghép "gọi".

Các nhà khởi nghiệp nên tưởng tượng lại sản phẩm như các thành phần API, để các tác nhân không chỉ có thể "đọc hiểu" nó mà còn "gọi" nó. Thiết kế sản phẩm cần xem xét ba chiều:

  1. Tiêu chuẩn hóa cấu trúc giao diện: Sản phẩm có "có thể gọi" không?
  • Các thao tác chính có thể được mô tả thông qua cấu trúc DOM có ngữ nghĩa hoặc ánh xạ JSON không?
  • Có cung cấp trạng thái máy, giúp Agent có thể tái hiện quy trình hành vi của người dùng một cách ổn định không?
  • Tương tác người dùng có hỗ trợ phục hồi kịch bản không?
  • Có sẵn WebHook hoặc API Endpoint có thể truy cập ổn định không?
  1. Danh tính và quyền truy cập: Có thể giúp Agent "vượt qua rào cản niềm tin" không?
  • Có thể trở thành đại lý AI để hoàn thành giao dịch, gọi thanh toán hoặc tài sản như một lớp trung gian đáng tin cậy?
  • Đối với các nhà khởi nghiệp Crypto, có thể xem xét xây dựng "Nền tảng Đa năng MCP( Thế giới Blockchain)".
  1. Hiểu lại cơ chế lưu lượng: Tương lai không phải là SEO, mà là AEO/ATF
  • Sản phẩm cần có độ phân giải nhiệm vụ rõ ràng: không phải là "trang", mà là "đơn vị khả năng có thể gọi"
  • Bắt đầu tối ưu hóa Agent ( AEO ) hoặc lập lịch tác vụ thích ứng ( ATF )
  • Tùy chỉnh trong các khung LLM khác nhau
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • 6
  • Chia sẻ
Bình luận
0/400
PensionDestroyervip
· 7giờ trước
chrome cuối cùng cũng đã cũ
Xem bản gốcTrả lời0
YieldHuntervip
· 20giờ trước
thật lòng mà nói, sự thống trị của chrome hiện tại thực sự là một trò lừa đảo ponzi... dữ liệu cho thấy số lần nhấp chuột tự nhiên đang giảm.
Xem bản gốcTrả lời0
GasFeeLovervip
· 20giờ trước
Vòng đầu tiên của máu đã bắt đầu ~ Cuối cùng cũng đã đợi đến ngày này
Xem bản gốcTrả lời0
GasBanditvip
· 20giờ trước
Sao lại toàn là tìm quảng cáo, viên thuốc Google.
Xem bản gốcTrả lời0
ForeverBuyingDipsvip
· 20giờ trước
Cảm giác như phải tổ chức lại lễ tang của IE.
Xem bản gốcTrả lời0
GateUser-00be86fcvip
· 20giờ trước
Cuộc chiến trình duyệt lại đến rồi, người hiểu sẽ hiểu.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)