Microsoft Open Sourcing - очень важный алгоритм поиска Bing


После приобретения GitHub в прошлом году Microsoft демонстрирует большую склонность к сообществу разработчиков открытого кода. Сразу после того, как на прошлой неделе они открыли инструменты разработки квантовых вычислений, Microsoft теперь раскрывает один из своих важных секретов для сообщества.

Microsoft Open Sourcing

Согласно официальному сообщению в блоге Чарли Вальдбургера, Microsoft объявила, что они открыли ключевую часть алгоритма, которая позволяет поисковым сервисам Bing быстро получать и показывать результаты пользователям. Делая эту технологию доступной для всех, компания надеется, что разработчики создадут аналогичный опыт и в других областях.

В наш век обильных данных пользователи ищут что-то в огромных массивах данных, в том числе в розничной торговле. Таким образом, не будет проблемы в поиске областей, которые можно улучшить. В настоящее время Microsoft открыла библиотеку, которую они разработали, чтобы лучше использовать все данные, собранные компанией, и модели искусственного интеллекта, которые они создали для Bing.

«Всего несколько лет назад веб-поиск был простым. Пользователи набрали несколько слов и пролистали страницы с результатами. Сегодня те же пользователи могут вместо этого сделать снимок на телефоне и поместить его в окно поиска или использовать интеллектуального помощника, чтобы задать вопрос, вообще не касаясь устройства. Они также могут напечатать вопрос и ожидать фактического ответа, а не списка страниц с вероятными ответами» 

- сказал представитель в объявлении.

Библиотека Python с открытым исходным кодом запускает алгоритм Space Partition Tree and Graph (SPTAG) по своей сути, и это то, что позволяет Microsoft выполнять поиск по миллиардам фрагментов информации в миллисекундах.

Vector не новость, но компания применила эту концепцию к моделям глубокого обучения, чтобы сделать ее более эффективной. Говоря немного о процессе, команда сначала берет новую модель и кодирует данные в векторы. Здесь каждый вектор представляет пиксель или слово. Затем. он генерирует векторный индекс с использованием библиотеки SPTAG. По мере получения запросов модель глубокого обучения переводит текст или изображение в вектор, и библиотека находит наиболее связанные векторы в этом индексе.

Согласно Microsoft «Благодаря поиску Bing усилия по векторизации расширились до более 150 миллиардов фрагментов данных, проиндексированных поисковой системой, чтобы обеспечить улучшение по сравнению с традиционным соответствием ключевых слов. К ним относятся отдельные слова, символы, фрагменты веб-страниц, полные запросы и другие средства массовой информации. Позже Bing может сканировать индексированные векторы при каждом поиске и обеспечивать лучший результат », - добавили они.

Если вам интересно, библиотека теперь доступна под лицензией MIT со всеми инструментами, необходимыми для построения и поиска этих векторных индексов. 


0 комментариев
Сортировка:
Добавить комментарий