0-9
A
AI Agent
Интеллектуальный агент.
Бот, используемый при решении задач искусственным интеллектом.
Algorithm
Алгоритм.
Процесс выполнения набора предписаний для выполнения задач.
Area under the curve (AUC)
Площадь под кривой.
В контексте двоичной классификации это метрика оценки, обозначающая площадь под кривой, которая соотносит количество истинных положительных результатов (по оси Y) и ложных положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1 (наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений правильного и ложного обнаружения). 
Artificial Intelligence (AI)
Искусственный интеллект (ИИ).
По определению профессора Эндрю Мура, — это наука и технология разработки компьютеров, выполняющих функции, которые до недавнего времени считались прерогативой человеческого интеллекта 
Automatic Speech Recognition (ASR)
Автоматическое распознавание речи.
Это относится к способности машин понимать и обрабатывать естественную речь. Системы ASR используются в голосовых помощниках, чат-роботах, машинном переводе и т.д.
B
Backpropagation
Метод обратного распространения ошибки.
Метод обучения нейронных сетей, относится к методам обучения с учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов нейронов в соответствии с правилом.
Binary classification
Двоичная классификация.
Задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации
Bot
Бот.
Автономная программа, которая может взаимодействовать с компьютерными системами, программами или пользователями. В большинстве случаев находится под прямым или косвенным управлением человека.
C
CER
Частота ошибок в символах.
Используют расстояние Левенштейна — это метод оценки разницы между двумя строками, который учитывает количество вставок, удалений и замен в одной из строк относительно другой. CER использует его на уровне символов. На вход этот метод получает две строки: распознавание вендора и исходная строка, она же референс.
Формула расчёта:
CER = (S+D+I)/N = (S+D+I)/(S+D+C), где:
S — количество замен
D — количество удалений
I — количество вставок
C — количество корректных символов
N — количество символов в исходной строке

В отличие от WER, при подсчёте CER НЕ учитываются пробелы.

Для каждого тестового датасета в итоге принято считать 2 величины:
Average CER, sum of relationships — средняя частота ошибок в символах, сумма отношений
Average CER, relationship of sums — средняя частота ошибок в символах, отношение сумм
Calibration

Калибровка
Процесс сопоставления необработанной оценки на членство в классе для двоичной и мультиклассовой классификации. У некоторых обучающих алгоритмов ML.NET есть суффикс NonCalibrated. Эти алгоритмы создают необработанную оценку, которая затем должна быть сопоставлена с вероятностью класса.
Clustering
Кластеризация.
Класс задач по группировке множества объектов на подмножества, по какому-либо признаку и группе признаков.
Computational learning theory
Теория вычислительного обучения.
Предметная область ИИ, которая посвящена разработке и анализу алгоритмов машинного обучения.
Computer vision
Компьютерное зрение.
Междисциплинарная научная предметная область ИИ и информатики, посвященная изучению и разработке компьютеров, способных к визуальному распознаванию информации на входе.
Convolutional neural network (CNN)
Сверточная нейронная сеть (СНС).
Класс глубоких нейронных сетей, используемых для распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей изначально разрабатывалась для обработки распознавания образов.
D
Data Cleansing
Очистка данных.
Обеспечение качества наборов данных. Для нахождения и исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно проверяются.
Data mining
Интеллектуальный анализ данных
Это процесс изучения и обнаружения закономерностей в данных для получения новой информации.
Data science
Наука о данных.
Междисциплинарная научная область, которая занимается изучением процессов анализа, обработки и представления данных в цифровом виде. Дисциплина получила широкое распространение благодаря концепции «больших данных» (big data).
Datasets
Наборы данных.
Набор структурированных данных, предназначенных для обучения моделей нейронных сетей.
Deep learning
Глубокое обучение.
Раздел машинного обучения, в котором применяются многослойные нейронные сети. В сочетании с высокой вычислительной мощностью и большими наборами данных могут применятся для решения большого ряда задач, в том числе, которые ранее были под силу только человеку.
Deep neural network (DNN)
Глубокая нейронная сеть.
Сеть с несколькими скрытыми слоями. Чем больше скрытых слоёв содержит модель, тем меньше представления мы имеем о процессах в скрытых слоях. 
Dimensional reduction
Снижение размерности.
Процесс уменьшения числа случайных переменных путем получения выборки главных переменных методом отбора и/или выделения признаков.
E
F
Feature learning
Обучение признаков.
G
Generative adversarial networks (GANs) 
Генеративная состязательная сеть.
Генеративная состязательная сеть (GAN) представляет собой две нейронные сети, одна из которых генерирует контент, вторая старается отличить подлинный контент от сгенерированного. Используется, в частности, для создания фотореалистичных изображений или повышения качества изображений.
Group Method of Data Handling
Метод группового учёта аргументов.
Cемейство индуктивных алгоритмов для математического моделирования мультипараметрических данных. Метод основан на рекурсивном селективном отборе моделей, на основе которых строятся более сложные модели. Точность моделирования на каждом следующем шаге рекурсии увеличивается за счет усложнения модели.
H
Handcrafted features
Вручную построенные признаки
I
J
K
L
Long short-term memory networks (LSTMs)
Сети с долгой краткосрочной памятью.
Сети с долгой краткосрочной памятью (LSTM) — это уникальные виды рекуррентных нейронных сетей, способные обрабатывать долгосрочные зависимости
M
Machine learning (ML) 
Машинное обучение.
По определению профессора Тома Митчелла, машинное обучение — это научная область ИИ, которая изучает компьютерные алгоритмы, позволяющие компьютерным программам автоматически совершенствоваться по мере накопления опыта
Machine learning model
Модель машинного обучения.
Моделирование машинного обучения — это система вопросов/ответов, снабженная очищенными данными, разработанная для выявления определённых закономерностей. Модель машинного обучения может быть определена как комплексное отображение некоторого процесса.
Machine perception
Машинное восприятие.
Способность компьютерной системы воспринимать данные подобно человеку.
N
N-грамм
Схема извлечения признаков для текстовых данных, которая преобразует любую последовательность из N слов в определенное значение признака.
Named Entity Recognition (NER)
Извлечение именованных сущностей.
Natural Language Processing (NLP)
Обработка естественного языка.
Научная отрасль искусственного интеллекта, которая занимается развитием понимания, интерпретации и применения компьютерами человеческого языка.
Neural network
Нейронная сеть.
Искусственная нейронная сеть — это компьютерная система, смоделированная по образцу человеческого мозга.
Normalization

Нормализация
Процесс масштабирования данных с плавающей точкой до значений от 0 до 1.
O
Optical character recognition (OCR)
Оптическое распознавание символов.
Механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере.
P
Pipeline
Все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и обучения. После обучения конвейер становится моделью.
Q
R
Recurrent neural network (RNN)
Рекуррентная нейронная сеть.
Эффективный и устойчивый к сбоям тип нейронной сети, использующей для обработки сложных последовательностей свою внутреннюю память.
Regularization
Регуляризация
Метод добавления некоторых дополнительных ограничений к условию с целью решить некорректно поставленную задачу или предотвратить переобучение. Регуляризация «наказывает» линейную модель за слишком большую сложность. Существует два типа регуляризации.
1.  L1L использует нули как весовые коэффициенты для незначащих признаков. Размер сохраненной модели может уменьшиться после регуляризации такого рода.
2. L2L сводит к минимуму диапазон весовых коэффициентов для незначащих признаков. Это более общий процесс, который менее чувствителен к выбросам.
Representation Learning
Обучение представлениям.
Набор техник, которые позволяют системе автоматически обнаружить представления, необходимые для выявления признаков или классификации исходных (сырых) данных. 
Robotic Process Automation (RPA)
Роботизированная автоматизация процессов.
Форма технологии автоматизации бизнес-процессов, основанная на метафорическом программном обеспечении роботов (ботов) или работников искусственного интеллекта.
S
Supervised learning
Контролируемое обучение.
Задача машинного обучения, состоящая в изучении функции, которая сопоставляет входные данные с выходными на основе примеров пар «вход-выход».
T
Test sample
Тестовая (или контрольная) выборка.
Выборка, на которой оценивается качество построенной модели и контролируется процесс обучения с целью исключения эффекта переобучения. Тестовый набор данных не зависит от обучающей выборки, но имеет одинаковое с ней распределение вероятностей.
Text to Speech (TTS)
Технология преобразования текста в речь. Это компьютерное моделирование человеческой речи из текстового представления при помощи методов машинного обучения.
Training sample
Обучающая выборка.
Выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь.
Transfer learning
Трансферное обучение.
Метод машинного обучения, при котором применение знаний, полученных из модели, используемой в одной задаче, может быть повторно использовано в качестве основы для другой задачи.
Turing test
Тест Тьюринга.
Знаменитый тест Тьюринга представляет собой тест, который признается пройденным только в том случае, если во ходе общения человек не смог отличить машину от человека.
U
Unstructured Data
Неструктурированные данные (или неструктурированная информация).
Это информация, которая либо не имеет заранее определенной модели данных, либо не организована заранее определенным образом. Неструктурированная информация, как правило, содержит много текста, но также может содержать такие данные, как даты, цифры и факты.
V
Validation sample
Проверочная выборка.
Выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель.
W
WER
частота ошибок в словах.
Используют расстояние Левенштейна — это метод оценки разницы между двумя строками, который учитывает количество вставок, удалений и замен в одной из строк относительно другой. WER использует его на уровне слов. На вход этот метод получает две строки: распознавание вендора и исходная строка, она же референс.
Формула расчёта:
WER = (S+D+I)/N = (S+D+I)/(S+D+C), где:
S — количество замен
D — количество удалений
I — количество вставок
C — количество корректных слов
N — количество слов в исходной строке

Для каждого тестового датасета в итоге принято считать 2 величины:
Average WER, sum of relationships — средняя частота ошибок в словах, сумма отношений
Average WER, relationship of sums — средняя частота ошибок в словах, отношение сумм
X
Y
Z