Обществознание и социальная психология

ISSN 2949-2637

Название компании

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

Аль-Тамими Ахмед Ясин Аббас, Доцент  кафедры русского языка – Филологический факультет - Самарраский университет - Самарра – Ирак

Аннотация. Благодаря интенсивному использованию информационных технологий, накоплению огромного объема оцифрованных текстов и аудиоматериалов, а также прогрессу в области искусственного интеллекта и математическому моделированию естественного языка, произошло зарождение и активное развитие компьютерной лингвистики. Эта относительно новая профессиональная область занимается теоретическими и практическими исследованиями, направленными на обработку языка с применением компьютерных технологий.

Abstract. The rapid integration of information technologies, substantial digitization of text and speech data, advancements in artificial intelligence, and mathematical modeling of natural language have given rise to the emergence and evolution of theoretical and applied progress in a relatively new professional domain known as computational linguistics.

Ключевые слова: компьютерные технологии, Компьютерная лингвистика, искусственный интеллект и математическое моделирование

Keywords: Computer technology, Computer linguistics, Artificial intelligence, Mathematical modeling.

Explanation:

The text highlights the significant impact of information technologies, data accumulation, artificial intelligence advancements, and mathematical language modeling on the development of computational linguistics. It emphasizes how these factors have contributed to the establishment and progression of this relatively new field, combining both theoretical and practical aspects related to language and technology. 

 
  • Информационные технологии играют ключевую роль в преодолении множества вызовов, с которыми сталкиваются современные лингвисты [1]. Рассмотрим несколько аспектов:
  •  1.Обработка масштабных данных: Современные информационные технологии обеспечивают возможность автоматической обработки и анализа обширных объемов данных, содержащих различные языки, речь и другие формы коммуникации.. 
  • 2. Создание многоязычных корпусов: Эти технологии позволяют создавать и обрабатывать данные на разных языках, открывая путь для сравнительного анализа языков и изучения языковых тенденций. 
  • 3. Разработка лингвистических программ и инструментов: Информационные технологии поддерживают создание программ и инструментов для анализа данных, таких как системы распознавания речи, машинного перевода и программы текстового анализа.
  •  4. Исследования в области машинного обучения и распознавания образов: Лингвисты могут использовать информационные технологии для применения методов машинного обучения и распознавания образов в обработке и анализе данных. 
  • 5. Разработка компьютерных моделей языка и языковых процессов: С применением информационных технологий создаются компьютерные модели языков и языковых процессов, что дает возможность исследовать языковые явления в цифровой форме и моделировать различные языковые сценарии.
Эти пункты отражают, как информационные технологии оказывают существенное влияние на современные лингвистические исследования, обеспечивая инструменты и методы для более глубокого понимания языка и его многогранных аспектов.


Компьютерная лингвистика представляет собой сферу, где язык изучается и моделируется с помощью компьютерных программ и технологий для анализа языка в различных условиях. Она охватывает разработку программ и методов обработки данных, используемых в прикладной лингвистике. Также компьютерная лингвистика применяет компьютерные модели для изучения языка не только в лингвистике, но и в смежных областях знаний. Это направление объединяет изучение языка и компьютерные технологии для более глубокого понимания функционирования языка в различных контекстах.

В ряде случаев термин "вычислительная лингвистика" употребляется в качестве синонима для "компьютерной лингвистики". Это обусловлено разнообразием перевода: английское слово "computational" может быть переведено на русский как "вычислительный". В российской науке этот вариант перевода использовался чаще в прошлом веке [5], но в настоящее время его употребление крайне редко из-за потенциального сужения области, описываемой в данном научном направлении [6]. Это отражает изменения в терминологии и фокусе исследований в данной области со временем.

На первый взгляд, компьютерная лингвистика кажется слиянием лингвистики и информатики. Однако область наук, связанных с компьютерной лингвистикой, значительно более разнообразна. Она тесно связана с когнитивной психологией, математикой, индивидуальной филологией и, в конечном итоге, философией. Для специалистов в этой области материал, который они изучают, варьируется от древних рассуждений о человеческом языке (например, первые санскритские грамматики) до самых современных разработок в области информационных технологий. Важно понимать, что компьютерная лингвистика простирается далеко за пределы простого сочетания лингвистики и информатики, охватывая множество дисциплин и идей, которые вносят свой вклад в понимание и развитие этой увлекательной области знаний.

Согласно определению от ACL (Ассоциация вычислительной лингвистики), компьютерная лингвистика - это научное исследование языка с использованием компьютеров. Она фокусируется на создании моделей для описания разнообразных лингвистических явлений, которые могут быть обработаны компьютерами. Эти модели могут быть разработаны на основе ручных знаний или ориентированы на данные, обладая статистическим или эмпирическим характером. Основная цель работы в области компьютерной лингвистики заключается в предоставлении формального и вычислительного объяснения лингвистических и психолингвистических явлений. Такая деятельность помогает не только понять язык, но и разрабатывать компьютерные системы, способные обрабатывать, анализировать и взаимодействовать с языком в различных формах и контекстах.

Результаты исследований в области компьютерной лингвистики проявляются в различных проверенных системах, включая распознавание речи, синтез речи, чат-боты, поисковые системы, текстовые редакторы, образовательные материалы по языку и другие инновационные разработки [2]. Эти технологии имеют широкое применение, облегчая нашу повседневную жизнь, улучшая коммуникацию и предоставляя новые инструменты для изучения, понимания и взаимодействия с языком в различных контекстах и сферах.

Терминология компьютерной лингвистики не появилась мгновенно. Ее развитие происходило постепенно в период, когда компьютерные технологии обработки естественно-языковой информации проникали в различные сферы общества и получили широкое практическое применение [5; 9]. Это был период активного внедрения компьютеров и информационных технологий в повседневную жизнь, что способствовало развитию и утверждению этой области на пересечении языковых наук и вычислительной техники.

Расцвет компьютерной лингвистики привел не только к формированию новых научных концепций, но и к проникновению компьютерной техники во все сферы жизни. Средства вычислительной технологии, интернет-инфраструктура, многофункциональные гаджеты мобильной связи - все это стремительно вошло в повседневную жизнь. Появились новые сервисы для поиска информации, компьютерного перевода, голосовых ассистентов, виртуальных собеседников и множество других инноваций. Эти изменения не только трансформировали научные представления, но и значительно повлияли на способы, которыми мы взаимодействуем с информацией и языком в современном мире.

Эти изменения также оказали влияние на эволюцию соответствующей лексики, которая стала чаще употребляться и нашла свое применение среди более широкого круга пользователей.

Таким образом, компьютерная лингвистика представляет собой раздел прикладной лингвистики, который занимается теоретическими аспектами языка с учетом их применимости для решения конкретных практических задач [7]. Это направление объединяет изучение языка с использованием вычислительных средств и технологий для решения реальных проблем в современном мире.

В сферу прикладной лингвистики, помимо компьютерной лингвистики, входят несколько других дисциплин, таких как лексикография, лингводидактика, терминоведение, переводоведение, а также прикладные исследования в областях лингвистической экспертизы, упорядочения и стандартизации научно-технической терминологии [11; 12]. В общем плане, "прикладная лингвистика включает три основных направления: лингводидактику, лингвосемиотику и информационное обслуживание." Эти направления не только расширяют область применения языковых наук в реальных ситуациях, но и взаимодействуют с компьютерной лингвистикой, совместно внося вклад в практическое применение языка и языковых решений в различных областях и контекстах.

Информационное обслуживание охватывает различные сферы деятельности: от библиотечного и архивного дела до информационного поиска, реферирования, составления информационных словарей, двуязычного перевода и разработки автоматизированных систем управления [9]. В классическом понимании прикладная лингвистика сконцентрирована на методиках обучения языкам. Но современное развитие этой области знаний привело к расширению ее предметной области, включая проблемы логопедии и перевода [3].

 Это отображает эволюцию прикладной лингвистики, которая теперь охватывает не только методы обучения языкам, но и другие смежные области, такие как логопедия и перевод. Расширение информационного обслуживания также внесло свой вклад, включая разнообразные аспекты работы с информацией, от создания ресурсов до технологических систем управления.

В зарубежной лингвистике различные аспекты компьютерной лингвистики рассматривались в работах известных исследователей. Некоторые из них включают Н. Хомского(N. Chomsky), В. Ингве (V. H. Yngve "A model and an hypothesis for language structure", 1960), М. Халлидея (M. Halliday "System and function in language", 1976), Р. Каплана и Дж. Бреснана (J. Bresnan, R. Kaplan "A competence-based theory of syntactic closure. The mental representation of grammatical relation", 1982), Т. Виноград (Computer Software for working with language, 1984), В.Раскина (V. Raskin "Natural Language Processing for Information Assurance and Security: An Overview and Implementations", 2000), Й. Вилкса (Y. Wilks Computational linguistics: History, 2006), а также работы Ш. Лаппин и А. Кларк (A. Clark, S. Lappin "The handbook of computational linguistics and natural language processing", 2012).

Эти ученые внесли значительный вклад в понимание компьютерной лингвистики и ее различных аспектов. Их работы охватывают широкий спектр тем, начиная от структуры языка и заканчивая применением обработки естественного языка для информационной безопасности. Изучение их трудов позволяет лучше понять развитие компьютерной лингвистики и ее влияние на лингвистические и информационные науки.

В российском языкознании вклад в развитие компьютерной лингвистики внесли следующие работы: В. Ю. Розенцвейг "Основы общего и машинного перевода" (1964) А. Е. Кибрик "Модель автоматического анализа письменного текста (на материале ограниченного военного подъязыка)" (1970) З. М. Шаляпина "К проблеме построения формальной модели процесса перевода" (1975) О. С. Кулагина "Исследования по машинному переводу" (1979) Ю. Н. Марчук "Проблемы машинного перевода" (1983) Ю. Д. Апресян "Лингвистическое обеспечение автоматической системы французско-русского автоматического перевода ЭТАП-1" (1984) Г. В. Чернов "Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода" (под ред. Г. В. Чернова, 1986) Н. Д. Андреев "Основные направления работы экспериментальной лаборатории машинного перевода" (1986) Н. Н. Леонтьева "База знаний и автоматический перевод (проект многоязычной информационно-справочной системы)" (1989).

Эти исследования и работы в России посвящены различным аспектам машинного перевода и лингвистическому обеспечению систем автоматического перевода. Они являются частью обширного научного наследия, проливающего свет на развитие компьютерной лингвистики и ее приложений в российской лингвистике.

Сегодня компьютерная лингвистика открывает возможности для разработки искусственного интеллекта, ступая по пути создания и быстро развиваясь в этом направлении. Среди ее текущих задач - создание человеко-машинных интерфейсов с возможностью устного ввода/вывода информации, управление компьютером и другими устройствами при помощи речи, организация информационно-справочной службы, где пользователи могут получать и запрашивать разнообразную информацию из баз данных голосом, а также разработка устройств для прослушивания и воспроизведения различных сообщений. Важной задачей также является многоязычный устный ввод/вывод речевой информации с автоматическим переводом [4, с. 515, 516]. Компьютерная лингвистика тесно связана с разработкой технологий, облегчающих взаимодействие между человеком и машиной при помощи естественного языка, что способствует широкому спектру практических применений в различных сферах, начиная от информационных систем и заканчивая развитием технологий мультимедийной коммуникации.

Компьютерная лингвистика включает практические направления, среди которых выделяется корпусная лингвистика. Этот раздел прикладной лингвистики занимается созданием и использованием лингвистических корпусов при помощи компьютеров. Центральное понятие корпусной лингвистики – лингвистический корпус – представляет собой подборку особых текстов, которые отмечены по различным лингвистическим параметрам и оборудованы системой поиска [7, с. 57].

Этот раздел дает возможность анализировать язык на основе реальных текстов, что позволяет лингвистам и исследователям получать ценные данные для изучения различных языковых явлений. Лингвистические корпусы обеспечивают доступ к разнообразной информации, размеченной и организованной таким образом, чтобы облегчить изучение языка и проведение лингвистических исследований с использованием компьютерных технологий

Компьютерная лингвистика выделяется прежде всего своим использованием компьютерных средств для обработки языковых данных. Инструменты этой области включают компьютерные программы, моделирующие различные аспекты языка. Поскольку эти программы могут быть написаны на разных языках программирования, общий концептуальный аппарат компьютерной лингвистики может отличаться. Однако важно отметить, что существуют общие принципы компьютерного моделирования мышления, которые реализуются в большинстве компьютерных моделей [2].

 Это означает, что хотя инструменты и методы могут различаться в зависимости от конкретной задачи или используемых технологий, всё же существуют общие основы в разработке компьютерных моделей языка и мышления. Компьютерная лингвистика ориентирована на использование вычислительных средств для анализа и моделирования языковых явлений, используя принципы программирования и компьютерного моделирования.

Следует отметить, что основой для этих компьютерных систем лежит теория знаний, в первую очередь развиваемая в сфере искусственного интеллекта и впоследствии ставшая одним из разделов когнитивной науки. Современная прикладная лингвистика представляет собой многообразную область, активно применяемую в практических сферах человеческой деятельности. Одним из наиболее перспективных направлений в этой области являются гипертекстовые технологии, непосредственно связанные с использованием и развитием глобальной сети. Успешная разработка программ-оболочек гипертекста и создание удобного взаимодействия компьютерных программ с пользователем невозможны без привлечения фундаментальных знаний о языковой системе. Эти компьютерные системы стремятся к созданию удобных инструментов для взаимодействия пользователя с информацией, используя современные технологии, которые тесно связаны с пониманием языка и его структуры.

В российской прикладной лингвистике открываются те же области применения знаний о языке, что и в мировом сообществе профессиональных лингвистов. Компьютерные лингвисты специализируются на разработке алгоритмов для распознавания текста и речи, создании синтеза искусственной речи, разработке систем семантического перевода и развитии искусственного интеллекта. Следует отметить, что сегодня в теоретической лингвистике часто используются компьютерные инструменты, а лингвисты, обладающие знаниями в области языковой теории и компьютерной лингвистики, пользуются большим спросом. Кроме того, специалисты по компьютерной лингвистике востребованы как в научных учреждениях, так и в коммерческих компаниях. Это означает, что в России специалисты в области компьютерной лингвистики активно применяют свои знания для создания инновационных технологий, улучшения систем обработки языка и развития искусственного интеллекта. Их навыки и экспертиза востребованы как в научной среде для исследований, так и в коммерческой сфере для разработки практических приложений, повышения производительности и усовершенствования технологий обработки языка.

Если рассматривать использование информационных технологий в лингвистике, важно обратить внимание на компьютерную лексикографию. Это сфера прикладной лингвистики, фокусирующаяся на разработке компьютерных словарей, лингвистических баз данных и программ для поддержки создания лексикографических работ. Это означает, что компьютерная лексикография использует вычислительные технологии для сбора, структурирования и представления лексической информации. Она помогает создавать электронные словари, систематизировать языковые данные и управлять лингвистическими ресурсами. Это важный инструмент для лингвистов, облегчающий процессы анализа и представления лексической информации с помощью современных компьютерных методов и технологий.

Автоматизированные словари, подобные тем, что используются в компьютерной лексикографии, по сути повторяют структуру обычных словарных статей, но обладают функциональностью, недоступной в традиционных форматах. Например, они могут сортировать данные по различным аспектам словарной статьи (например, собирать все прилагательные), выполнять автоматический поиск всех слов, содержащих определенный семантический компонент в толковании и многое другое. В целом, компьютерная лексикография, ориентированная на создание электронных словарей, является областью компьютерной лингвистики, обладающей огромным потенциалом. Продукты, которые она создает - электронные словари, предлагают множество преимуществ: мульти-медийность, гибкость, интеграцию новейших технологических разработок, актуальность материалов и отвечают потребностям пользователей в удобном доступе к нужной информации.

Компьютерная терминография - это область, связанная с использованием информационных технологий в лингвистике. Она фокусируется на создании специализированных терминологических словарей и представляет собой особую ветвь лексикографии. Терминография тесно взаимосвязана с терминоведением - наукой, изучающей термины. Таким образом, компьютерная терминография является наукой о разработке электронных терминологических словарей. При анализе структуры словарной статьи в терминологическом словаре видно, что его создание требует более детальной и тщательной работы по сравнению с обычным словарем. Это связано с особенностями и спецификой терминов, требующих точного и четкого определения.

Информационные технологии активно применяются в лингвистике для реализации машинного перевода, что составляет ключевую область использования IT в лингвистике. Машинный перевод является не только фокусом, в котором сосредотачиваются все аспекты компьютерной лингвистики – от анализа содержания до синтеза слов, предложений и текста в целом – но и отражает постоянно возрастающую практическую потребность современного общества в переводе разнообразных текстов. Машинный перевод представляет собой процесс передачи содержания текста с одного языка на другой с помощью компьютеров. Он остается одним из первых и актуальных направлений компьютерной лингвистики.

 Процесс машинного перевода может принимать разные формы, в зависимости от степени вовлеченности человека в его осуществлении. Это разнообразие форм определяется целями перевода и контекстом [7, c. 81]. Современные инструменты компьютерной лингвистики можно разделить на два основных типа. Первый тип представляют системы, основанные на правилах, в то время как второй тип — системы, основанные на статистике. В категорию систем, базирующихся на правилах, входят трансферные системы и интерлингвистические средства. Популярный пример трансферной системы — система PROMT. Действие современных инструментов компьютерной лингвистики часто описывают термином обработка естественного языка (NLP).

В последнее время системы, основанные на статистических методах, становятся более доминирующими. Они опираются на искусственные нейронные сети, обученные на большом объеме разнообразных текстов-образцов [3]. В ходе процесса перевода эти системы используют вероятности наиболее оптимальных вариантов слов, фраз и предложений.

Терминология в компьютерной лингвистике расширяется, включая понятия, такие как пайплайн, парсинг, токенизация, лемматизация, стоп-слова, распознавание именованных сущностей, извлечение фактов, сентимент-анализ, контент-анализ и другие. Наибольший потенциал в настоящее время имеют средства компьютерной лингвистики, основанные на предварительно обученных нейросетевых моделях, таких как трансформеры. Вопреки этому, еще не удалось создать идеальные системы обработки естественного языка, способные полностью понимать человеческую речь. Однако развитие вычислительной техники и новых лингвистических теорий дает надежду на решение этой задачи в будущем. Следовательно, можно ожидать и расширения терминологии компьютерной лингвистики вместе с этим прогрессом.

При решении прикладных задач в компьютерной лингвистике возникают две основные трудности. Одна из них связана с синтезом речи, возникающим в переходе от формализованного представления смысла к текстам на естественном языке. Вторая проблема связана с моделированием процесса понимания смысла текста и возникает при обратном процессе, когда необходимо преобразовать текст в формализованное представление его смысла. [2]

В компьютерной лингвистике лингвистические инструменты разделяются на две части: декларативную и процедурную. В декларативной части находятся словари, лексические единицы и грамматические таблицы. Это основная информация о языке и речи. Процедурная часть включает инструменты для управления и манипулирования декларативной частью, а также компьютерные интерфейсы. Для эффективного решения задач компьютерной лингвистики требуется полная и точная информация о языке и речи, представленная в памяти компьютера.

Итак, успех в компьютерной лингвистике зависит не только от качества предоставляемой декларативной информации, но и от функционала процедурных инструментов. Важная методологическая задача в прикладной компьютерной лингвистике заключается в правильной оценке взаимосвязи между этими двумя частями: декларативной (например, словарями и грамматическими таблицами) и процедурной (средствами для управления и обработки этой информации). Это отношение играет важную роль в эффективном решении задач компьютерной лингвистики [4].

Проанализировав научную литературу и технологические отчеты, можно сделать ряд выводов. Современная компьютерная лингвистика представляет динамичный и гибкий профессиональный ландшафт. Список технологий обработки естественного языка включает как текстовые, так и звуковые решения, при этом текстовые технологии преобладают. Профессионализация в этой области предполагает использование существующих решений для научных исследований или внедрения в различные сферы, где принятие решений опирается на анализ больших объемов текстовой или устной информации. Другой путь профессионализации связан с разработкой новых решений в области обработки естественного языка. В этом случае лингвисту потребуются глубокие знания в области прикладной математики и программирования.

  • Буренкова Д. Ю., Князева М. А., Невзорова М. С. Инструменты компьютерной лингвистики, облегчающие переводческую деятельность студентов неязыковых специальностей // Гуманитарные и социальные науки. 2023. №1. 
  • Дадашева, А. Б. Применение методов компьютерной лингвистики для анализа смыслового восприятия агрессивности текста   // Научные исследования и разработки 2023  – Москва, 2023. – С. 67-70 
  • Даниелян, Н. В. Социальный характер компьютерной лингвистики   // Век ХХI. Цифровизация - Зеленоград, 2022. – С. 30-35 
  • Дюжева, А. Н. Информационные технологии в лингвистике  а // Языковые и культурные реалии современного мира   – Пенза, 2021. – С. 19-26
  • Польщикова О. Н.ОБЪЕМ ПОНЯТИЯ «ТЕРМИНОЛОГИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ» // Вестник Марийского государственного университета. 2023. №1 (49). 
  • Прохорова О.Н., Польщикова О.Н., Польщикова А.К., Деев А.В. Системность терминологии компьютерной лингвистики. Известия Юго-Западного государственного университета. Серия: Лингвистика и педагогика.
  • Утробина А.А. Компьютерная лингвистика и машинный перевод: об истории становления // Вестник Башкирск. ун-та. 2022. №2. 
  • Чересов, П. А. Классификация задач компьютерной лингвистики для создания инструмента по управлению потоками задач   // Информатика: проблемы, методы, технологии  – Воронеж, 2023. – С. 1103-1110
  • Clark A., Fox C., Lappin S. The handbook of computational linguistics and natural language processing [Электронный ресурс]. West Sussex, England : Wiley-Blackwell, 2013. 800 p

 

Издательство "KPO-SCIENCE"