Форматы документов, зоны и атрибуты Понятие парсера
Индексатор, используемый в Яndex.Server 3.1, разработан так, чтобы индексировать документы произвольного формата. С этой целью чтение документа и интерпретация его формата осуществляется с помощью отдельных модулей, по одному модулю на каждый формат документа. Эти интерпретирующие формат модули в дальнейшем называются парсерами.
В состав стандартной поставки Яndex.Server 3.1 входят парсеры форматов text/html и text/plain, в настоящее время доступны также парсеры форматов XML, RTF, PDF и DOC. Кроме того, доступна спецификация интерфейса, которая позволяет независимым производителям разработать нужные парсеры.