Классификация, кластеризация и оценка сходства текстов (Курс "Компьютерная лингвистика") [Архэ] [Александр Пиперски]

Kevin

VIP складчик
Platinum
Администратор
Регистрация
8 Сен 2016
Сообщения
483.714
Реакции
268.162
**Складчина: Классификация, кластеризация и оценка сходства текстов (Курс "Компьютерная лингвистика")**
[Архэ] [Александр Пиперски]

Компьютерная лингвистика является важной областью, сочетающей в себе теорию и практику. Ее достижения окружают нас повсюду: от машинного перевода и поисков в Интернете до голосовых помощников. За каждым из этих технологических продуктов стоит упорная работа лингвистов и программистов. В рамках курса мы рассмотрим историю компьютерной лингвистики, основные методы, а также их применения в решении практических задач, таких как проверка орфографии и классификация новостей по тематике.

**Тема 7: Классификация, кластеризация и оценка сходства текстов**

Одной из ключевых задач компьютерной лингвистики является группировка схожих текстов. Это может быть как разделение на заранее заданные категории (например, "Спорт", "Политика"), так и определение групп на основе сходства самих текстов. Например, новостные агрегаторы сначала объединяют похожие тексты в один сюжет, а затем присваивают ему определенную категорию. На занятии мы обсудим методы оценки расстояния между текстами, различия между задачами классификации и кластеризации, а также способы их решения.

**Лектор:**
Александр Чедович Пиперски, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ.
 
Сверху