Skip to content

Extragerea Cunoștințelor Din Date

Public syllabus for 2025-2026

Academic overview

Programme
BioInfo
Period
Year 1, Semester 2
Credits
6
Weeks
14

Teaching team

Course coordinator
Seminar coordinators
Daniela Zaharie

Learning time distribution

Total
Curriculum Lecture Practice Total Weekly Lecture Practice
42 28 14 3 2 1
Exam hours
6
Individual Study Bibliography study Field study Homework Tutoring Others
102 20 26 50 6 0
Overall
150

Learning outcomes

Knowledge

  • Cunoașterea conceptelor specifice etapelor unui proces de extragere a cunoștințelor din date
  • Cunoașterea principalelor tehnici de analiză a datelor: clasificare, grupare, regresie, reguli de asociere
  • Ințelegerea modului în care se pot construi modele de predicție pornind de la date, a modului în care pot fi evaluate și a limitelor acestora

Skills

  • Abilitatea de a analiza date și de a extrage cunoștințe din ele folosind instrumente specifice analizei datelor, inclusiv pentru cazul volumelor mari de date.
  • Abilitatea de a implementa algoritmi de clasificare, regresie, grupare, extragere a regulilor de asociere, predicție în serii temporale etc.
  • Abilitatea de a rezolva probleme din lumea reală folosind instrumente specifice analizei datelor
  • Abilitatea de a lucra în echipa unui proiect de analiză a datelor

Responsibility

  • Rezolvarea în manieră autonomă a problemelor
  • Înțelegerea aspectelor referitoare la integritatea datelor și a riscurilor induse de utilizarea inadecvată a tehnicilor de extragere a informațiilor din date incomplete

Online platform

https://classroom.google.com/c/ODQ0OTQ2NDI2OTUz?cjc=2b2cjlhv

Course content

Content Methods Obs
C1. Introducere în extragerea cunoștințelor din date. Concepte de bază. Principalele tipuri de prelucrări asupra datelor. Categorii de date și tipuri de atribute. Prelegere, conversație, exemplificare 2 ore ([1]- cap 1,[2]- cap 1, [3]-cap 2)
C2. Pre-procesarea datelor. Transformări de bază asupra datelor (discretizare, normalizare, standardizare). Curățarea datelor și tratarea valorilor absente. Selecția atributelor și extragerea trăsăturilor. Metode de tip filtru. Metode de tip “wrapper”. Reducerea dimensiunii (PCA) Prelegere, conversație, exemplificare 2 ore ([1]-cap 2, [8] – cap 3, cap 8)
C3-6. Tehnici de clasificare. Concepte de bază și măsuri ale performanței (acuratețe, specificitate, sensitivitate, matrice de confuzie, ROC). Antrenare, testare și validare încrucișată. Clasificatori bazați pe instanțe (k Nearest Neighbour). Clasificatori bazati pe reguli (ZeroR, OneR). Arbori de decizie (ID3, C45). Clasificatori probabiliști (Bayesian networks). Rețele neuronale. Clasificatori bazați pe vectori suport (Support Vector Machines). Prelegere, conversație, exemplificare 8 ore ([1]-cap 10; [2] –cap 4; [3] – cap 4, sect 5.2,5.3, 5.5, 5.6, [8] – cap 7)
C7-8. Tehnici de grupare. Concepte de bază (cluster, centroid). Măsuri de similaritate/ disimilaritate. Măsuri ale calității gruparii. Algoritmi partitionali (kMeans, Fuzzy CMeans). Algoritmi ierarhici (aglomerativi, divizivi). Grupare bazată pe modele probabiliste (algoritm EM). Gruparea datelor spațiale (DBSCAN). Prelegere, conversație, exemplificare 4 ore ([1] – cap 6, [2]-cap 5, [3] – sect 5.8, [7]- cap 4)
C9. Reguli de asociere. Concepte de bază (suport, încredere, subseturi frecvente). Măsuri ale calității regulilor. Algoritmul Apriori. Prelegere, conversație, exemplificare 2 ore ([1]-cap 4; [2]-cap 6, [3]-sect. 5.4)
C10-12. Modele de regresie și prelucrarea seriilor temporale. Coeficienți de corelație. Regresie (liniară și neliniară). Arbori de regresie. Rețele bazate pe funcții cu simetrie radială. Analiza seriilor de timp (preprocesare, identificarea tendintei, detecție de pattern-uri, predicție cu modele auto-regresive, detectia anomaliilor). Prelegere, conversație, exemplificare 4 ore ([1] – cap 8 ,cap 11.5, 14, [2] – cap 9, [7]-cap 5)
C13. Metode de tip ansamblu. Metode bazate pe: votare (voting), colectii de date (bagging), colecții de arbori de decizie aleatori (random forests), antrenare cu ponderi (boosting - AdaBoost), stivuirea clasificatorilor (stacking) Prelegere, conversație, exemplificare 4 ore ([1] – sect 11.8, [5])
C14. Procesarea datelor nestructurate (modele specifice procesării textelor). Recapitulare Prelegere, conversație, exemplificare 2 ore ([1] –cap 13, 18, [4], [2] – cap 7), [6]

Course bibliography

Charu C. Aggarwal. Data Mining – the textbook, Springer, 2015 M. H. Dunham. Data Mining. Introductory and Advanced Topics, Pearson Education 2003 F. Gorunescu, Data Mining. Concepts, Models and Techniques, Springer, 2011 C. D. Manning, P. Raghavan and H. Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. I.H. Witte, E. Frank, M.A. Hall. Data Mining – Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2011 J. Leskovec, A. Rajaraman, J. Ullman – Mining of Massive Datasets, http://infolab.stanford.edu/~ullman/mmds.html, 2020 D. Kroese, Z. Botev, T.Taimre, R. Vaisman, Data Science and Machine Learning: Mathematical and Statistical Methods, CRC Press, 2020 S. Skiena, The Data Science Design Manual, Springer, 2017 D. Zaharie: suport de curs în format electronic (Google Classroom – code 2b2cjlhv)

Seminar content

Content Methods Obs
L1. Seturi și colectii de date. Introducere în instrumentele software utilizate (Pandas si Scikit-learn). Problematizare, dialog, învățare prin colaborare 2 ore
L2. Pre-procesarea si vizualizarea datelor Problematizare, dialog, învățare prin colaborare 2 ore
L3. Tehnici de clasificare. Clasificatori bazați pe instanțe, arbori de decizie și reguli de clasificare. Clasificatori bazați pe modele probabiliste, rețele neuronale, clasificatori bazati pe vectori suport Problematizare, dialog, învățare prin colaborare 2 ore
L4. Tehnici de grupare. Algoritmi partitionali, algoritmi ierarhici și algoritmi bazați pe densitate. Problematizare, dialog, învățare prin colaborare 2 ore
L5. Extragerea regulilor de asociere. Aplicații în analize de tip “coș de cumpărături” . Probleme de regresie. Problematizare, dialog, învățare prin colaborare 2 ore
L6. Analiza seriilor de timp și predicție. Problematizare, dialog, învățare prin colaborare 2 ore
L7. Metode de tip ansamblu. Procesarea datelor nestructurate. Problematizare, dialog, învățare prin colaborare 2 ore

Seminar bibliography

Colecții de date de test: http://archive.ics.uci.edu/ml/datasets, https://www.kaggle.com/ J. Grus, Data Science from Scratch. First Principles with Python, O’Reilly, 2015 D. Zaharie - suport pentru laborator (Google Classroom – code 2b2cjlhv)

Corroboration

Conţinutul este în concordanţă cu structura cursurilor similare de la alte universităţi şi acoperă aspectele fundamentale utilizării tehnicilor de analiză a datelor și de extragere a modelelor din date

AI tools guidance

La realizarea temelor sau a proiectului final este permisă utilizarea instrumentelor de Inteligență Artificială generativă (IAgen) pentru a identifica resurse de documentare și ca asistent în etapa de codificare. Utilizarea IAgen trebuie specificată explicit, împreună cu prompt-urile utilizate.

Evaluation and delivery

Activity Criteria Methods Percentage
C
  • Cunoașterea conceptelor si tehnicilor din analiza datelor
  • Examen scris în sesiunea de examene
  • 20.0%
C
  • Identificarea corectă a metodei de analiză a datelor pentru rezolvarea unei probleme concrete
  • Realizarea și prezentarea orală a unui proiect
  • 60.0%
S
  • Utilizarea unor instrumente software adecvate si implementarea metodelor de construire a modelelor pornind de la date
  • Aplicații și teme de laborator
  • 20.0%

Performance standards

cunoașterea conceptelor de bază din analiza datelor abilitatea de a implementa un algoritm de extragere a cunoștințelor din date capacitatea de a identifica tehnica de clasificare, grupare, regresie adecvată rezolvării unei probleme reale abilitatea de a utiliza instrumente software dedícate extragerii de cunoștințe din date Nota finală se calculează ca medie ponderată a notelor acordate pentru componentele specificate la 10.4 și 10.5. Examenul se consideră promovat dacă media este cel puțin 5 (fiecare notă care intră în calculul mediei trebuie să fie cel puțin 4). La fiecare dintre sesiunile de examen (inclusiv cele de restanță și măriri) nota se calculează după aceeași regulă. In sesiunea de restanțe/măriri se pot da doar probele la care nu s-a obținut notă de promovare (minim 5), cu excepția cazului în care studentul dorește să susțină și probele deja promovate.

Additional info

(none)