doi: 10.18698/2309-3684-2021-2-96116
Впервые обсуждаются проблемы оценки индекса подобия неоднородных научных публикаций, содержащих уравнения и формулы. Показано, что наличие уравнений и формул (а также графиков, рисунков и таблиц) является осложняющим фактором, существенно затрудняющим исследование таких текстов. Доказано, что метод определения индекса подобия публикаций, основанный на учете отдельных математических символов и частей уравнений и формул, является неэффективным и может приводить к ошибочным и даже совершенно абсурдным выводам. Исследуются возможности наиболее популярных аналитических систем Антиплагиат и iThenticate, используемых в настоящее время в научных журналах для выявления плагиата и самоплагиата. Приведены результаты обработки системой iThenticate конкретных примеров и специальных тестовых задач, содержащих уравнения и формулы. Установлено, что эта аналитическая система при анализе неоднородных текстов часто неспособна отличить самоплагиат от псевдосамоплагиата — кажущегося (ложного, мнимого) самоплагиата. Рассмотрена модельная сложная ситуация, в которой идентификация самоплагиата требует привлечения высококвалифицированных специалистов узкого профиля. Предлагаются различные пути улучшения работы аналитических систем сопоставления неоднородных текстов. Данная статья будет полезна научным работникам и преподавателям вузов физико–математического и инженерного профиля, программистам, занимающимся проблемой распознавания образов и вопросами цифровой обработки изображений, а также широкому кругу читателей, которые интересуются вопросами плагиата и самоплагиата.
Полянин А.Д., Шингарева И.К. Индекс подобия математических и других научных публикаций с уравнениями и формулами и проблема идентификации самоплагиата. Математическое моделирование и численные методы, 2021, № 2, с. 96–116.