Известия вузов. Ядерная энергетика

Рецензируемый научно-технический журнал. ISSN: 0204-3327

Применение методов машинного обучения для наполнения и актуализации баз ядерных знаний

14.12.2022 2022 - №04 Подготовка кадров

В.П. Тельнов Ю.А. Коровин

DOI: https://doi.org/10.26583/npe.2022.4.11

УДК: 004.8

Рассматриваются вопросы проектирования и создания баз знаний в области ядерной науки и техники. Приводятся результаты поиска и исследования оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента в интересах автоматизированного наполнения и актуализации масштабируемых семантических репозиториев (баз знаний) в области ядерной физики и атомной энергетики, а в перспективе и для иных предметных областей на русском и английском языках. Предложенные алгоритмы обеспечат методическую и технологическую основу для создания проблемно-ориентированных баз знаний как систем искусственного интеллекта, а также предпосылки для развития семантических технологий приобретения новых знаний в интернете без непосредственного участия человека. Тестирование исследуемых алгоритмов машинного обучения осуществляется методом скользящего контроля (cross-validation) на профильных корпусах текстов. Новизна представленного исследования обусловлена применением принципа оптимальности Парето для многокритериальной оценки и ранжирования исследуемых алгоритмов при отсутствии априорной информации о сравнительной значимости критериев. Проект реализуется в соответствии со стандартами семантического веба (RDF, OWL, SPARQL, др.). Не существует технологических ограничений для интеграции создаваемых баз знаний со сторонними хранилищами данных, с метапоисковыми, библиотечными, справочно-информационными и вопросно-ответными системами. Предлагаемые программные решения основаны на облачных вычислениях с использованием сервисных моделей DBaaS и PaaS для обеспечения масштабируемости хранилищ данных и сетевых сервисов. Созданное программное обеспечение находится в открытом доступе и может свободно тиражироваться.

Ссылки

  1. CERN Document Server. Электронный ресурс: https://cds.cern.ch (дата доступа 26.06.2022).
  2. Центр данных фотоядерных экспериментов. Электронный ресурс: http://cdfe.sinp.msu.ru/index.ru.html (дата доступа 26.06.2022).
  3. Международное агентство по атомной энергии. Управление ядерными знаниями. Электронный ресурс: https://www.iaea.org/ru/temy/upravlenie-yadernymi-znaniyami (дата доступа 26.06.2022).
  4. Госкорпорация «Росатом». Система управления знаниями (СУЗ). Электронный ресурс: http://www.innov-rosatom.ru/suz-rosatoma/ (дата доступа 26.06.2022).
  5. Telnov V., Korovin Yu. Machine learning and text analysis in the tasks of knowledge graphs refinement and enrichment. / CEUR Workshop Proceedings, 2020, v. 2790, pp. 48-62. Supplementary Proceedings of the XXII International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2020), Voronezh, Russia, October 13-16, 2020, EID: 2-s2.0-85098723055, ISBN: 16130073. Электронный ресурс: http://ceur-ws.org/Vol-2790/paper06.pdf (дата доступа 26.06.2022).
  6. Telnov V., Korovin Yu. Semantic Web and Interactive Knowledge Graphs as Educational Technology. In: Cloud Computing Security, ed. Dinesh G. Harkut, IntechOpen, London, 2020, ISBN: 978-1-83880-703-0, DOI: https://doi.org/10.5772/intechopen.83221 .
  7. Telnov V., Korovin Yu. Semantic web and knowledge graphs as an educational technology of personnel training for nuclear power engineering. // Nuclear Energy and Technology. – 2019. – No. 5(3). – PP. 273-280. DOI: https://doi.org/10.3897/nucet.5.39226 .
  8. Тельнов В., Коровин Ю. Семантический веб и графы знаний как образовательная технология подготовки кажров для ядерной энергетики. // Известия вузов. Ядерная энергетика. – 2019. – № 2. – С. 219-229. DOI: https://doi.org/10.26583/npe.2019.2.19 .
  9. Тельнов В., Коровин Ю. Программирование графов знаний, рассуждения на графах. // Программная инженерия. – 2019. – № 2. – С. 59-68. DOI: https://doi.org/10.17587/prin.10.59-68 .
  10. Telnov V. Semantic Educational Web Portal. / Selected Papers of the XIX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/ RCDL 2017), Moscow, Russia, October 9-13, 2017. Электронный ресурс: http://ceur-ws.org/Vol-2022, online http://ceur-ws.org/Vol-2022/paper11.pdf (дата доступа 26.06.2022).
  11. Семантический портал. Графы ядерных знаний. Интеллектуальные поисковые агенты, Электронный ресурс: http://vt.obninsk.ru/x/ (дата доступа 26.06.2022).
  12. Графы знаний по компьютерным дисциплинам. Интеллектуальные поисковые агенты. Электронный ресурс: http://vt.obninsk.ru/s/ (дата доступа 26.06.2022).
  13. W3C Semantic Web. Электронный ресурс: https://www.w3.org/standards/semanticweb/ (дата доступа 26.06.2022).
  14. W3C RDF Schema 1.1. Электронный ресурс: https://www.w3.org/TR/rdf-schema/ (дата доступа 26.06.2022).
  15. W3C OWL 2 Web Ontology Language. Электронный ресурс: https://www.w3.org/TR/owl2-overview/ (дата доступа 26.06.2022).
  16. Geron A. Hands-on ML with Scikit-Learn, Keras & TensorFlow. 2nd edn. – O’Reilly Media Inc., Boston. – 2019.
  17. Scikit-learn. Machine Learning in Python. Электронный ресурс: https://scikit-learn.org/stable/ (дата доступа 26.06.2022).
  18. Naive Bayes Classifier. Электронный ресурс:https://scikit-learn.org/stable/modules/naive_bayes.html (дата доступа 26.06.2022).
  19. Classification Metrics. Электронный ресурс: https://github.com/turi-code/userguide/blob/master/evaluation/classification.md (дата доступа 26.06.2022).
  20. ISO/IEC 19505-2:2012(E) Information technology – Object Management Group Unified Modeling Language (OMG UML) – Part 2: Superstructure. ISO/IEC, Geneva, 2012.
  21. Manning C., Surdeanu M., Bauer J., Finkel J., Bethard S., McClosky D. The Stanford CoreNLP Natural Language Processing Toolkit. / Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Association for Computational Linguistics, 2014, pp. 55-60. Электронный ресурс: https:// aclanthology.org/P14-5010.pdf (дата доступа 26.06.2022). DOI: https://doi.org/10.3115/v1/P14-5010 .
  22. Machine Learning with MATLAB & Simulink. Электронный ресурс: https://www.mathworks.com/solutions/machine-learning.html (дата доступа 26.06.2022).
  23. Stupnikov S., Kalinichenko A. Extensible Unifying Data Model Design for Data Integration in FAIR Data Infrastructures. / Proceedings of the XX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/ RCDL 2018). – Springer, 2019. – PP. 17-39. DOI: https://doi.org/10.1007/978-3-030-23584-0_2 .

семантический веб база знаний машинное обучение классификация семантическое аннотирование облачные вычисления

Ссылка для цитирования статьи: Тельнов В.П., Коровин Ю.А. Применение методов машинного обучения для наполнения и актуализации баз ядерных знаний. // Известия вузов. Ядерная энергетика. – 2022. – № 4. – С. 122-133. DOI: https://doi.org/10.26583/npe.2022.4.11 .