История одного проекта. Десять лет спустя

Логотип компании
16.01.2021Автор Эдуард Пройдаков
История одного проекта. Десять лет спустя
Словарь понемногу публикуется на страницах Виртуального компьютерного музея (www.computer-museum.ru), а наиболее интересные словарные статьи я помещаю на своей странице в «Фейсбуке». Возможно, со временем мы дозреем до того, чтобы сделать проект открытым...

Десять лет назад, к 20-летию работы над нашим англо-русским словарем по вычислительной технике и информационным технологиям (ВТ и ИТ), в IT World была опубликована моя статья «История одного проекта». И сегодня, в год 30-летия проекта, давайте посмотрим, что же за это время в нем произошло. Если тогда я с некоторой опаской утверждал, что наш словарь самый большой в мире в своей категории (в нем 27 750 словарных статей), то теперь я это делаю с гораздо большим основанием: наш труд вырос до 44 300 статей и стал просто гигантским. Каждая словарная статья описывает обычно не один термин, а несколько, и приводятся разные варианты их перевода.

Можно спросить: ну откуда в ВТ и ИТ столько терминов? Просто за эти годы наша область разрослась по множеству направлений – появились облачные вычисления, большие данные, анализ данных, блокчейн, предиктивная аналитика, машинное обучение, суперкомпьютерные и квантовые вычисления. Очень много терминов связано с информационной безопасностью. По появлению новых терминов хорошо видно, какие направления активно развиваются, какие стабилизировались, а какие стагнируют. Компьютерный язык, как и обычные, естественные языки, в постоянном движении, но мы не удаляем термины, вышедшие из употребления, иначе скоро будет невозможно читать старую документацию. Разумеется, трудно объять необъятное, и сейчас мы добавляем в словарь 50-60 новых статей в неделю.

В 2015 году вышло шестое бумажное издание нашего словаря объемом 1600 страниц формата A4 и весом ровно 3 кг. Стало понятно, что следующего уже не будет – делать многотомное издание совершенно бессмысленно. Так появилась идея выпускать небольшие, узкоспециализированные востребованные словари, делая выборку терминов из Большого словаря. Первый такой проект состоялся в 2019 году: издательство DirectMedia выпустило наш «Англо-русский словарь терминов по робототехнике и искусственному интеллекту». Он содержал всего 2600 словарных статей, что для такой актуальной темы недостаточно, и поэтому мы подготовили второе издание, добавив в него почти тысячу новых статей.

Вторым на 2020 год был запланирован «Англо-русский словарь по информационной безопасности», но из-за проблем с пандемией издание не состоялось. Сейчас в рукописи более 3200 словарных статей, но новые термины в этой области всё появляются. Может быть, что-то получится в наступившем, 2021 году.

Наконец, еще одним полезным опытом стало составление кратких словарей для альманаха «Искусственный интеллект», который выходит четыре раз в год, для него мы подготовили «Краткий англо-русский словарь по распознаванию речи». В момент публикации в нем было около 100 словарных статей, а сейчас уже около 300. Там же был словарь по распознаванию образов и недавний словарь по машинному обучению с подкреплением.

Разумеется, нам очень важна обратная связь с читателями. Поэтому словарь понемногу публикуется на страницах Виртуального компьютерного музея (www.computer-museum.ru), а наиболее интересные словарные статьи я помещаю на своей странице в «Фейсбуке». Возможно, со временем мы дозреем до того, чтобы сделать проект открытым. Меня пугает только предполагаемый объем модерирования.

Со словарными проектами сейчас какое-то непонятное состояние: они вроде бы есть, но начинаешь с людьми говорить, и выясняется, что проекты развиваются очень слабо, если вообще развиваются. Когда-то с гениальным Александром Нариньяни мы продвигали идею «Российской лингвистической инициативы» – создания электронных словарей языков народов мира. Словарные фирмы инициативу поддержали, но найти средства на ее реализацию не удалось. Другая моя мечта – превратить словарь в своеобразную энциклопедию ВТ и ИТ – постепенно осуществляется, мы постоянно расширяем толкования терминов. Понятно, что при таком объеме словаря этот процесс нескончаем.

Работа над словарями трудоемкая и кропотливая, не дает авторам возможности расслабиться, поскольку необходимо достаточно глубоко вникать в ту или иную тематику. У словарей есть одна большая проблема: чем словарь больше, тем больше усилий у автора уходит на поддержание его актуальности. Похоже, это правда: на 60 новых терминов мы еженедельно уточняем и дополняем примерно 150 уже существующих.

Я и мой уважаемый соавтор – уже ветераны ВТ, и наше поколение людей, которые знали развитие ВТ и ИТ достаточно широко, к сожалению, уходит. Вот даже думаю, что в пределах ближайшего десятилетия составление словарей ляжет на плечи искусственного интеллекта. Возможно, вначале будут проблемы с качеством и информационным шумом, но, полагаю, рано или поздно они будут до какой-то степени решены.

Эдуард Пройдаков

Похожие статьи