AI перетворює браузер: передумови третьої війни браузерів
Третя війна браузерів тихо розгортається. Оглядаючи історію, починаючи з 90-х років минулого століття з Netscape, IE від Microsoft, потім відкритої Firefox та Chrome від Google, боротьба браузерів завжди була яскравим втіленням контролю платформи та зміни технологічних парадигм. Chrome завоював панівну позицію завдяки швидкості оновлень та екосистемній інтеграції, а Google через "подвійну олігополію" пошуку та браузера сформував замкнене коло інформаційного входу.
Але сьогодні ця структура починає похитуватися. Поява великих мовних моделей (LLM) призводить до того, що все більше користувачів виконують завдання на сторінці результатів пошуку "нульовим кліком", традиційна поведінка кліків на веб-сторінках зменшується. Тим часом чутки про те, що Apple може замінити пошукову систему за замовчуванням у Safari, ще більше загрожують прибутковій основі Alphabet, і ринок вже починає виявляти занепокоєння щодо "традиційного пошуку".
Браузер сам також стикається з перетворенням ролі. Він більше не є лише інструментом для відображення веб-сторінок, а є контейнером, що об'єднує різноманітні можливості, такі як введення даних, поведінка користувачів, конфіденційність та особистість. Хоча AI Agent потужний, для виконання складних взаємодій на сторінці, виклику локальних даних особи, контролю елементів веб-сторінки все ще потрібна підтримка довірчої межі та функціонального пісочниці браузера. Браузер перетворюється з інтерфейсу для людей на платформу системних викликів для агентів.
Справжнім можливим руйнівником нинішньої структури ринку браузерів не є ще один "кращий Chrome", а нова структура взаємодії: не просто демонстрація інформації, а виклик завдань. Майбутні браузери повинні бути розроблені для AI Agent - не лише для читання, а й для написання та виконання. Проекти, такі як Browser Use, намагаються семантизувати структуру сторінок, перетворюючи візуальний інтерфейс на структурований текст, який можна викликати з LLM, що значно знижує вартість взаємодії.
Основні проекти на ринку вже почали експерименти: Perplexity створює рідний браузер Comet, використовуючи штучний інтелект замість традиційних результатів пошуку; Brave поєднує захист конфіденційності з локальним висновком, посилюючи функції пошуку та блокування за допомогою LLM; тоді як такі криптоорієнтовані проекти, як Donut, намагаються знайти новий вхід для взаємодії між штучним інтелектом і активами на блокчейні. Спільною рисою цих проектів є те, що вони намагаються перебудувати вхідну частину браузера, а не покращити його вихідний рівень.
Для підприємців можливості приховані в трикутних відносинах між введенням, структурою та агентом. Браузер, як інтерфейс виклику світу для майбутніх агентів, означає, що той, хто може запропонувати структуровані, викликаються та надійні "блоки можливостей", зможе стати частиною нової генерації платформ. Від SEO до AEO (Оптимізація агентських двигунів), від трафіку на сторінці до викликів ланцюга завдань, форма продукту та дизайнерське мислення перебудовуються. Третя війна браузерів відбувається не на "представленні", а на "введенні"; перемога не визначається тим, хто привертає увагу користувачів, а тим, хто здобуває довіру агентів і отримує доступ до викликів.
Історія розвитку браузерів
На початку 90-х років минулого століття, коли Інтернет ще не став частиною повсякденного життя, з'явився Netscape Navigator, ніби вітрильник, що відкриває нові землі, відкриваючи мільйонам користувачів двері у цифровий світ. Цей браузер не був першим, але став першим у справжньому сенсі, який вийшов на маси та сформував досвід користування Інтернетом. Тоді люди вперше могли так легко переглядати веб-сторінки через графічний інтерфейс, ніби весь світ раптом став досяжним.
Однак, слава зазвичай короткочасна. Microsoft швидко усвідомила важливість браузерів і вирішила примусово інтегрувати Internet Explorer в операційну систему Windows, зробивши його браузером за замовчуванням. Ця стратегія стала «вбивцею платформ», яка безпосередньо зруйнувала домінування Netscape на ринку. Багато користувачів не обирали IE свідомо, а просто приймали його, оскільки він був за замовчуванням у системі. IE завдяки розподільчим можливостям Windows швидко став лідером галузі, тоді як Netscape потрапила в спадний спіраль.
У кризовій ситуації інженери Netscape обрали радикальний та ідеалістичний шлях – вони відкрили вихідний код браузера і закликали до відкритої спільноти. Це рішення, здавалося, стало технічним "македонським поступком", яке знаменувало кінець старої ери та rise нових сил. Цей код згодом став основою проекту браузера Mozilla, спочатку названого Phoenix (що означає "фенікс, що відроджується"), але через проблеми з торговою маркою кілька разів змінював назву, врешті-решт отримавши ім'я Firefox.
Firefox не є простим копіюванням Netscape, він досяг багатьох проривів у користувацькому досвіді, екосистемі плагінів, безпеці тощо. Його створення знаменує перемогу духу відкритого коду та надає нову енергію всій індустрії. Дехто описує Firefox як "духовного спадкоємця" Netscape, подібно до того, як Османська імперія успадкувала відлуння Візантії. Це порівняння хоч і перебільшене, але має глибокий зміст.
Але за кілька років до офіційного релізу Firefox Microsoft вже випустила шість версій IE, завдяки перевазі в часі та стратегії пакетного розповсюдження системи, що призвело до того, що Firefox на самому початку опинився в позиції наздоганяючого, що визначило, що ця гонка не є справедливим змаганням з рівних стартових умов.
Водночас, ще один ранній гравець тихо з'явився на сцені. У 1994 році з'явився браузер Opera, який походить з Норвегії і спочатку був лише експериментальним проектом. Але з версії 7.0 у 2003 році він впровадив власний движок Presto, ставши першим, хто підтримав CSS, адаптивну верстку, голосове управління та кодування Unicode та інші передові технології. Хоча кількість користувачів була обмеженою, технологічно він завжди був попереду галузі, ставши "улюбленцем ґіків".
Того ж року Apple випустила браузер Safari. Це стало знаковим поворотом. Тоді Microsoft вклала 150 мільйонів доларів в Apple, яка ледь не збанкрутувала, щоб підтримати видимість конкуренції та уникнути антимонопольного розслідування. Хоча за замовчуванням пошуковою системою Safari з моменту його створення був Google, ця історія з Microsoft символізує складні та тонкі стосунки між інтернет-гігантами: співпраця та конкуренція завжди йдуть пліч-о-пліч.
У 2007 році IE7 вийшов разом з Windows Vista, але ринкові відгуки були середніми. У свою чергу, Firefox, завдяки більш швидкому темпу оновлень, більш дружній механіці розширень та природному привабленню для розробників, стабільно підвищував свою частку на ринку до приблизно 20%. Влада IE поступово послаблюється, напрямок змінюється.
Google має інший підхід. Хоча з 2001 року компанія почала розробляти власний браузер, їй знадобилося шість років, щоб переконати генерального директора Еріка Шмідта схвалити цей проект. Chrome був представлений у 2008 році, заснований на відкритому проекті Chromium та рушії WebKit, який використовується в Safari. Його жартома називають "обтяжливим" браузером, але завдяки глибоким навичкам Google у рекламі та брендингу, він швидко піднявся.
Ключовою зброєю Chrome є не функції, а частота оновлень версій (кожні шість тижнів) та єдиний досвід для всіх платформ. У листопаді 2011 року Chrome вперше перевищив Firefox, досягнувши 27% частки ринку; через шість місяців він знову обігнав IE, завершивши перехід від конкурента до домінуючого.
Водночас мобільний інтернет у Китаї також формує власну екосистему. Браузер відомої компанії швидко здобув популярність на початку 2010-х років, особливо на ринках, що розвиваються, таких як Індія, Індонезія та Китай, завдяки легкому дизайну та функціям, що стискають дані для економії трафіку, завоював прихильність користувачів недорогих пристроїв. У 2015 році його частка на глобальному ринку мобільних браузерів перевищила 17%, у той час як в Індії вона сягала 46%. Але ця перемога не була тривалою. У міру посилення урядом Індії перевірок безпеки китайських додатків, браузер вимушений був вийти з ключового ринку, поступово втрачаючи колишню славу.
З початку 2020-х років домінування Chrome було встановлено, а частка на світовому ринку стабільно тримається на рівні приблизно 65%. Варто зазначити, що хоча пошукова система Google та браузер Chrome обидва належать Alphabet, з точки зору ринку вони є двома незалежними гегемонними системами — перша контролює близько дев'яноста відсотків пошукових входів у світі, тоді як друга володіє більшістю "першого вікна" для користувачів, що заходять в Інтернет.
Щоб утримати цю подвійно монопольну структуру, Google не шкодує грошей. У 2022 році Alphabet заплатила Apple близько 20 мільярдів доларів лише для того, щоб Google зберіг статус за замовчуванням пошукової системи в Safari. Аналітики зазначають, що ця витрата становить 36% від доходів Google від реклами пошуку, отриманих з трафіку Safari. Іншими словами, Google платить "платню за захист" для свого захисного валу.
Але вітер знову змінився. Зі зростанням великих мовних моделей (LLM) традиційний пошук почав зазнавати удару. У 2024 році частка ринку пошуку Google впала з 93% до 89%, хоча компанія все ще домінує, але тріщини вже з'явилися. Ще більш революційними є чутки про те, що Apple може запустити власну AI-пошукову систему - якщо за замовчуванням у Safari буде використовуватися власний пошук, це не лише перепише екосистему, але й може похитнути прибуткову опору Alphabet. Ринок швидко відреагував: акції Alphabet впали з 170 доларів до 140 доларів, що відображає не лише паніку інвесторів, а й глибоке занепокоєння щодо майбутнього епохи пошуку.
Від Navigator до Chrome, від ідеалів з відкритим вихідним кодом до комерціалізації реклами, від легкого браузера до AI-помічника для пошуку, боротьба браузерів завжди була війною за технології, платформи, контент та контроль. Поле бою постійно змінюється, але суть ніколи не змінюється: хто контролює вхід, той визначає майбутнє.
В очах венчурних капіталістів, спираючись на нові потреби людей у пошукових системах в епоху LLM та ШІ, третя війна браузерів поступово розгортається. Нижче наведені дані про фінансування деяких відомих проєктів у сегменті AI-браузерів.
Застаріла архітектура сучасних браузерів
Говорячи про архітектуру браузера, класична традиційна архітектура виглядає так:
Клієнт - фронтальний вхід
Запит через HTTPS до найближчого Google Front End, завершення TLS-розшифрування, QoS-выборка та георозподіл. Якщо виявлено аномальний трафік (DDoS, автоматичне збори) можна обмежити потік або кинути виклик на цьому рівні.
Розуміння запиту
Фронт-енд повинен розуміти значення слів, введених користувачем, і для цього є три етапи: нейронна перевірка правопису, виправлення "recpie" на "recipe"; розширення синонімів, розширення "how to fix bike" до "repair bicycle". Аналіз намірів, визначення, чи є запит інформаційним, навігаційним чи торговим наміром, і призначення запиту Vertical.
Кандидат на повернення
Технологія запитів, що використовується відомою пошуковою системою, називається: обернені індекси. У прямому індексі ми можемо просто вказати ID, щоб знайти файл. Однак користувач не може знати номер вмісту серед тисяч мільярдів файлів, тому використовується дуже традиційний обернений індекс, щоб шукати файли, що містять відповідні ключові слова. Далі використовуються векторні індекси для обробки семантичного пошуку, тобто для пошуку вмісту, який має схоже значення з запитом. Це перетворює текст, зображення та інший вміст на високорозмірні вектори (embedding) і проводить пошук на основі схожості між цими векторами. Наприклад, навіть якщо користувач шукає "як зробити тісто для піци", пошукова система може повернути результати, пов'язані з "посібником по приготуванню тіста для піци", оскільки вони семантично схожі. Після обернених індексів і векторних індексів близько ста тисяч веб-сторінок буде попередньо відфільтровано.
Багаторівневе сортування
Системи зазвичай відбирають десятки тисяч кандидатних сторінок до приблизно 1000 статей, утворюючи попередній набір кандидатів, використовуючи тисячі легких ознак, таких як BM25, TF-IDF, оцінка якості сторінки тощо. Ці системи загалом називаються рекомендаторними системами. Вони залежать від множини ознак, що генеруються різними сутностями, включаючи поведінку користувачів, властивості сторінок, наміри запитів та контекстуальні сигнали. Наприклад, певна пошукова система враховує історію користувача, відгуки інших користувачів, семантику сторінки, значення запиту та іншу інформацію, а також контекстуальні фактори, такі як час (період дня, конкретні дні тижня) та зовнішні події, такі як новини в реальному часі.
Головне сортування за допомогою глибокого навчання
На етапі первинного пошуку відомий пошуковий двигун використовує такі технології, як RankBrain і Neural Matching, щоб зрозуміти семантику запиту та відфільтрувати первинно релевантні результати з величезної кількості документів. RankBrain - це система машинного навчання, впроваджена в 2015 році, яка має на меті краще зрозуміти значення запитів користувачів, особливо запитів, які з'являються вперше. Вона через
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
12 лайків
Нагородити
12
4
Репост
Поділіться
Прокоментувати
0/400
ForumLurker
· 5год тому
Chrome заважає
Переглянути оригіналвідповісти на0
OnChainDetective
· 5год тому
аналіз шаблонів свідчить, що домінування chrome було статистично неминучим... але розрив llm демонструє 99,7% ймовірність реструктуризації ринку
Революція AI-браузерів: Третя війна браузерів вже на горизонті
AI перетворює браузер: передумови третьої війни браузерів
Третя війна браузерів тихо розгортається. Оглядаючи історію, починаючи з 90-х років минулого століття з Netscape, IE від Microsoft, потім відкритої Firefox та Chrome від Google, боротьба браузерів завжди була яскравим втіленням контролю платформи та зміни технологічних парадигм. Chrome завоював панівну позицію завдяки швидкості оновлень та екосистемній інтеграції, а Google через "подвійну олігополію" пошуку та браузера сформував замкнене коло інформаційного входу.
Але сьогодні ця структура починає похитуватися. Поява великих мовних моделей (LLM) призводить до того, що все більше користувачів виконують завдання на сторінці результатів пошуку "нульовим кліком", традиційна поведінка кліків на веб-сторінках зменшується. Тим часом чутки про те, що Apple може замінити пошукову систему за замовчуванням у Safari, ще більше загрожують прибутковій основі Alphabet, і ринок вже починає виявляти занепокоєння щодо "традиційного пошуку".
Браузер сам також стикається з перетворенням ролі. Він більше не є лише інструментом для відображення веб-сторінок, а є контейнером, що об'єднує різноманітні можливості, такі як введення даних, поведінка користувачів, конфіденційність та особистість. Хоча AI Agent потужний, для виконання складних взаємодій на сторінці, виклику локальних даних особи, контролю елементів веб-сторінки все ще потрібна підтримка довірчої межі та функціонального пісочниці браузера. Браузер перетворюється з інтерфейсу для людей на платформу системних викликів для агентів.
Справжнім можливим руйнівником нинішньої структури ринку браузерів не є ще один "кращий Chrome", а нова структура взаємодії: не просто демонстрація інформації, а виклик завдань. Майбутні браузери повинні бути розроблені для AI Agent - не лише для читання, а й для написання та виконання. Проекти, такі як Browser Use, намагаються семантизувати структуру сторінок, перетворюючи візуальний інтерфейс на структурований текст, який можна викликати з LLM, що значно знижує вартість взаємодії.
Основні проекти на ринку вже почали експерименти: Perplexity створює рідний браузер Comet, використовуючи штучний інтелект замість традиційних результатів пошуку; Brave поєднує захист конфіденційності з локальним висновком, посилюючи функції пошуку та блокування за допомогою LLM; тоді як такі криптоорієнтовані проекти, як Donut, намагаються знайти новий вхід для взаємодії між штучним інтелектом і активами на блокчейні. Спільною рисою цих проектів є те, що вони намагаються перебудувати вхідну частину браузера, а не покращити його вихідний рівень.
Для підприємців можливості приховані в трикутних відносинах між введенням, структурою та агентом. Браузер, як інтерфейс виклику світу для майбутніх агентів, означає, що той, хто може запропонувати структуровані, викликаються та надійні "блоки можливостей", зможе стати частиною нової генерації платформ. Від SEO до AEO (Оптимізація агентських двигунів), від трафіку на сторінці до викликів ланцюга завдань, форма продукту та дизайнерське мислення перебудовуються. Третя війна браузерів відбувається не на "представленні", а на "введенні"; перемога не визначається тим, хто привертає увагу користувачів, а тим, хто здобуває довіру агентів і отримує доступ до викликів.
Історія розвитку браузерів
На початку 90-х років минулого століття, коли Інтернет ще не став частиною повсякденного життя, з'явився Netscape Navigator, ніби вітрильник, що відкриває нові землі, відкриваючи мільйонам користувачів двері у цифровий світ. Цей браузер не був першим, але став першим у справжньому сенсі, який вийшов на маси та сформував досвід користування Інтернетом. Тоді люди вперше могли так легко переглядати веб-сторінки через графічний інтерфейс, ніби весь світ раптом став досяжним.
Однак, слава зазвичай короткочасна. Microsoft швидко усвідомила важливість браузерів і вирішила примусово інтегрувати Internet Explorer в операційну систему Windows, зробивши його браузером за замовчуванням. Ця стратегія стала «вбивцею платформ», яка безпосередньо зруйнувала домінування Netscape на ринку. Багато користувачів не обирали IE свідомо, а просто приймали його, оскільки він був за замовчуванням у системі. IE завдяки розподільчим можливостям Windows швидко став лідером галузі, тоді як Netscape потрапила в спадний спіраль.
У кризовій ситуації інженери Netscape обрали радикальний та ідеалістичний шлях – вони відкрили вихідний код браузера і закликали до відкритої спільноти. Це рішення, здавалося, стало технічним "македонським поступком", яке знаменувало кінець старої ери та rise нових сил. Цей код згодом став основою проекту браузера Mozilla, спочатку названого Phoenix (що означає "фенікс, що відроджується"), але через проблеми з торговою маркою кілька разів змінював назву, врешті-решт отримавши ім'я Firefox.
Firefox не є простим копіюванням Netscape, він досяг багатьох проривів у користувацькому досвіді, екосистемі плагінів, безпеці тощо. Його створення знаменує перемогу духу відкритого коду та надає нову енергію всій індустрії. Дехто описує Firefox як "духовного спадкоємця" Netscape, подібно до того, як Османська імперія успадкувала відлуння Візантії. Це порівняння хоч і перебільшене, але має глибокий зміст.
Але за кілька років до офіційного релізу Firefox Microsoft вже випустила шість версій IE, завдяки перевазі в часі та стратегії пакетного розповсюдження системи, що призвело до того, що Firefox на самому початку опинився в позиції наздоганяючого, що визначило, що ця гонка не є справедливим змаганням з рівних стартових умов.
Водночас, ще один ранній гравець тихо з'явився на сцені. У 1994 році з'явився браузер Opera, який походить з Норвегії і спочатку був лише експериментальним проектом. Але з версії 7.0 у 2003 році він впровадив власний движок Presto, ставши першим, хто підтримав CSS, адаптивну верстку, голосове управління та кодування Unicode та інші передові технології. Хоча кількість користувачів була обмеженою, технологічно він завжди був попереду галузі, ставши "улюбленцем ґіків".
Того ж року Apple випустила браузер Safari. Це стало знаковим поворотом. Тоді Microsoft вклала 150 мільйонів доларів в Apple, яка ледь не збанкрутувала, щоб підтримати видимість конкуренції та уникнути антимонопольного розслідування. Хоча за замовчуванням пошуковою системою Safari з моменту його створення був Google, ця історія з Microsoft символізує складні та тонкі стосунки між інтернет-гігантами: співпраця та конкуренція завжди йдуть пліч-о-пліч.
У 2007 році IE7 вийшов разом з Windows Vista, але ринкові відгуки були середніми. У свою чергу, Firefox, завдяки більш швидкому темпу оновлень, більш дружній механіці розширень та природному привабленню для розробників, стабільно підвищував свою частку на ринку до приблизно 20%. Влада IE поступово послаблюється, напрямок змінюється.
Google має інший підхід. Хоча з 2001 року компанія почала розробляти власний браузер, їй знадобилося шість років, щоб переконати генерального директора Еріка Шмідта схвалити цей проект. Chrome був представлений у 2008 році, заснований на відкритому проекті Chromium та рушії WebKit, який використовується в Safari. Його жартома називають "обтяжливим" браузером, але завдяки глибоким навичкам Google у рекламі та брендингу, він швидко піднявся.
Ключовою зброєю Chrome є не функції, а частота оновлень версій (кожні шість тижнів) та єдиний досвід для всіх платформ. У листопаді 2011 року Chrome вперше перевищив Firefox, досягнувши 27% частки ринку; через шість місяців він знову обігнав IE, завершивши перехід від конкурента до домінуючого.
Водночас мобільний інтернет у Китаї також формує власну екосистему. Браузер відомої компанії швидко здобув популярність на початку 2010-х років, особливо на ринках, що розвиваються, таких як Індія, Індонезія та Китай, завдяки легкому дизайну та функціям, що стискають дані для економії трафіку, завоював прихильність користувачів недорогих пристроїв. У 2015 році його частка на глобальному ринку мобільних браузерів перевищила 17%, у той час як в Індії вона сягала 46%. Але ця перемога не була тривалою. У міру посилення урядом Індії перевірок безпеки китайських додатків, браузер вимушений був вийти з ключового ринку, поступово втрачаючи колишню славу.
З початку 2020-х років домінування Chrome було встановлено, а частка на світовому ринку стабільно тримається на рівні приблизно 65%. Варто зазначити, що хоча пошукова система Google та браузер Chrome обидва належать Alphabet, з точки зору ринку вони є двома незалежними гегемонними системами — перша контролює близько дев'яноста відсотків пошукових входів у світі, тоді як друга володіє більшістю "першого вікна" для користувачів, що заходять в Інтернет.
Щоб утримати цю подвійно монопольну структуру, Google не шкодує грошей. У 2022 році Alphabet заплатила Apple близько 20 мільярдів доларів лише для того, щоб Google зберіг статус за замовчуванням пошукової системи в Safari. Аналітики зазначають, що ця витрата становить 36% від доходів Google від реклами пошуку, отриманих з трафіку Safari. Іншими словами, Google платить "платню за захист" для свого захисного валу.
Але вітер знову змінився. Зі зростанням великих мовних моделей (LLM) традиційний пошук почав зазнавати удару. У 2024 році частка ринку пошуку Google впала з 93% до 89%, хоча компанія все ще домінує, але тріщини вже з'явилися. Ще більш революційними є чутки про те, що Apple може запустити власну AI-пошукову систему - якщо за замовчуванням у Safari буде використовуватися власний пошук, це не лише перепише екосистему, але й може похитнути прибуткову опору Alphabet. Ринок швидко відреагував: акції Alphabet впали з 170 доларів до 140 доларів, що відображає не лише паніку інвесторів, а й глибоке занепокоєння щодо майбутнього епохи пошуку.
Від Navigator до Chrome, від ідеалів з відкритим вихідним кодом до комерціалізації реклами, від легкого браузера до AI-помічника для пошуку, боротьба браузерів завжди була війною за технології, платформи, контент та контроль. Поле бою постійно змінюється, але суть ніколи не змінюється: хто контролює вхід, той визначає майбутнє.
В очах венчурних капіталістів, спираючись на нові потреби людей у пошукових системах в епоху LLM та ШІ, третя війна браузерів поступово розгортається. Нижче наведені дані про фінансування деяких відомих проєктів у сегменті AI-браузерів.
Застаріла архітектура сучасних браузерів
Говорячи про архітектуру браузера, класична традиційна архітектура виглядає так:
Клієнт - фронтальний вхід
Запит через HTTPS до найближчого Google Front End, завершення TLS-розшифрування, QoS-выборка та георозподіл. Якщо виявлено аномальний трафік (DDoS, автоматичне збори) можна обмежити потік або кинути виклик на цьому рівні.
Розуміння запиту
Фронт-енд повинен розуміти значення слів, введених користувачем, і для цього є три етапи: нейронна перевірка правопису, виправлення "recpie" на "recipe"; розширення синонімів, розширення "how to fix bike" до "repair bicycle". Аналіз намірів, визначення, чи є запит інформаційним, навігаційним чи торговим наміром, і призначення запиту Vertical.
Кандидат на повернення
Технологія запитів, що використовується відомою пошуковою системою, називається: обернені індекси. У прямому індексі ми можемо просто вказати ID, щоб знайти файл. Однак користувач не може знати номер вмісту серед тисяч мільярдів файлів, тому використовується дуже традиційний обернений індекс, щоб шукати файли, що містять відповідні ключові слова. Далі використовуються векторні індекси для обробки семантичного пошуку, тобто для пошуку вмісту, який має схоже значення з запитом. Це перетворює текст, зображення та інший вміст на високорозмірні вектори (embedding) і проводить пошук на основі схожості між цими векторами. Наприклад, навіть якщо користувач шукає "як зробити тісто для піци", пошукова система може повернути результати, пов'язані з "посібником по приготуванню тіста для піци", оскільки вони семантично схожі. Після обернених індексів і векторних індексів близько ста тисяч веб-сторінок буде попередньо відфільтровано.
Багаторівневе сортування
Системи зазвичай відбирають десятки тисяч кандидатних сторінок до приблизно 1000 статей, утворюючи попередній набір кандидатів, використовуючи тисячі легких ознак, таких як BM25, TF-IDF, оцінка якості сторінки тощо. Ці системи загалом називаються рекомендаторними системами. Вони залежать від множини ознак, що генеруються різними сутностями, включаючи поведінку користувачів, властивості сторінок, наміри запитів та контекстуальні сигнали. Наприклад, певна пошукова система враховує історію користувача, відгуки інших користувачів, семантику сторінки, значення запиту та іншу інформацію, а також контекстуальні фактори, такі як час (період дня, конкретні дні тижня) та зовнішні події, такі як новини в реальному часі.
Головне сортування за допомогою глибокого навчання
На етапі первинного пошуку відомий пошуковий двигун використовує такі технології, як RankBrain і Neural Matching, щоб зрозуміти семантику запиту та відфільтрувати первинно релевантні результати з величезної кількості документів. RankBrain - це система машинного навчання, впроваджена в 2015 році, яка має на меті краще зрозуміти значення запитів користувачів, особливо запитів, які з'являються вперше. Вона через