Разработка инструмента для детального корпусного анализа текста
Что должен находить инструмент:
- идиомы
- фразовые глаголы
- грамматические конструкции
- сленг
- (список дополняется)
Также инструмент должен определять уровни слов и выражений, классифицировать грамматические конструкции по сложности.
Со временем при наполнении базы данных он также должен будет определять различные культурные отсылки и упоминания. Например, в некоторых сериалах часто упоминаются отсылки на другие произведения или реальные культурные особенности (США в приоритете).
Инструмент не будет базироваться на использовании нейросети. Должен быть строгий, точный и предсказуемый результат, а также возможность за короткое время анализовать большие объемы текста.
Goal Accomplishment Criteria
Инструмент с высокой точностью определяет идиомы, фразовые глаголы, уровень слов и сложность грамматических конструкций.
Goal ecological compatibility
Этот проект закрывает мою потребность в удовлетворении моих 4 любимых дел: английский язык, поиск, классификация, накопление.
-
Парсинг идиом
-
Непосредственно парсинг
-
Проверка и нормализация получившихся таблиц
-
-
Написание скрипта для поиска идиом в тексте
- 50
- 23 December 2025, 04:53
Don't miss new posts!
Subscribe for the Goal and follow through to its completion