Extragerea Cunoștințelor Din Date
Public syllabus for 2025-2026
Academic overview
Teaching team
Learning time distribution
| Total | ||||||
|---|---|---|---|---|---|---|
| Curriculum | Lecture | Practice | Total Weekly | Lecture | Practice | |
| 42 | 28 | 14 | 3 | 2 | 1 | |
| Exam hours | ||||||
| 6 | ||||||
| Individual Study | Bibliography study | Field study | Homework | Tutoring | Others | |
| 102 | 20 | 26 | 50 | 6 | 0 | |
| Overall | ||||||
| 150 |
Learning outcomes
Knowledge
- Cunoașterea conceptelor specifice etapelor unui proces de extragere a cunoștințelor din date
- Cunoașterea principalelor tehnici de analiză a datelor: clasificare, grupare, regresie, reguli de asociere
- Ințelegerea modului în care se pot construi modele de predicție pornind de la date, a modului în care pot fi evaluate și a limitelor acestora
Skills
- Abilitatea de a analiza date și de a extrage cunoștințe din ele folosind instrumente specifice analizei datelor, inclusiv pentru cazul volumelor mari de date.
- Abilitatea de a implementa algoritmi de clasificare, regresie, grupare, extragere a regulilor de asociere, predicție în serii temporale etc.
- Abilitatea de a rezolva probleme din lumea reală folosind instrumente specifice analizei datelor
- Abilitatea de a lucra în echipa unui proiect de analiză a datelor
Responsibility
- Rezolvarea în manieră autonomă a problemelor
- Înțelegerea aspectelor referitoare la integritatea datelor și a riscurilor induse de utilizarea inadecvată a tehnicilor de extragere a informațiilor din date incomplete
Online platform
Course content
| Content | Methods | Obs |
|---|---|---|
| C1. Introducere în extragerea cunoștințelor din date. Concepte de bază. Principalele tipuri de prelucrări asupra datelor. Categorii de date și tipuri de atribute. | Prelegere, conversație, exemplificare | 2 ore ([1]- cap 1,[2]- cap 1, [3]-cap 2) |
| C2. Pre-procesarea datelor. Transformări de bază asupra datelor (discretizare, normalizare, standardizare). Curățarea datelor și tratarea valorilor absente. Selecția atributelor și extragerea trăsăturilor. Metode de tip filtru. Metode de tip “wrapper”. Reducerea dimensiunii (PCA) | Prelegere, conversație, exemplificare | 2 ore ([1]-cap 2, [8] – cap 3, cap 8) |
| C3-6. Tehnici de clasificare. Concepte de bază și măsuri ale performanței (acuratețe, specificitate, sensitivitate, matrice de confuzie, ROC). Antrenare, testare și validare încrucișată. Clasificatori bazați pe instanțe (k Nearest Neighbour). Clasificatori bazati pe reguli (ZeroR, OneR). Arbori de decizie (ID3, C45). Clasificatori probabiliști (Bayesian networks). Rețele neuronale. Clasificatori bazați pe vectori suport (Support Vector Machines). | Prelegere, conversație, exemplificare | 8 ore ([1]-cap 10; [2] –cap 4; [3] – cap 4, sect 5.2,5.3, 5.5, 5.6, [8] – cap 7) |
| C7-8. Tehnici de grupare. Concepte de bază (cluster, centroid). Măsuri de similaritate/ disimilaritate. Măsuri ale calității gruparii. Algoritmi partitionali (kMeans, Fuzzy CMeans). Algoritmi ierarhici (aglomerativi, divizivi). Grupare bazată pe modele probabiliste (algoritm EM). Gruparea datelor spațiale (DBSCAN). | Prelegere, conversație, exemplificare | 4 ore ([1] – cap 6, [2]-cap 5, [3] – sect 5.8, [7]- cap 4) |
| C9. Reguli de asociere. Concepte de bază (suport, încredere, subseturi frecvente). Măsuri ale calității regulilor. Algoritmul Apriori. | Prelegere, conversație, exemplificare | 2 ore ([1]-cap 4; [2]-cap 6, [3]-sect. 5.4) |
| C10-12. Modele de regresie și prelucrarea seriilor temporale. Coeficienți de corelație. Regresie (liniară și neliniară). Arbori de regresie. Rețele bazate pe funcții cu simetrie radială. Analiza seriilor de timp (preprocesare, identificarea tendintei, detecție de pattern-uri, predicție cu modele auto-regresive, detectia anomaliilor). | Prelegere, conversație, exemplificare | 4 ore ([1] – cap 8 ,cap 11.5, 14, [2] – cap 9, [7]-cap 5) |
| C13. Metode de tip ansamblu. Metode bazate pe: votare (voting), colectii de date (bagging), colecții de arbori de decizie aleatori (random forests), antrenare cu ponderi (boosting - AdaBoost), stivuirea clasificatorilor (stacking) | Prelegere, conversație, exemplificare | 4 ore ([1] – sect 11.8, [5]) |
| C14. Procesarea datelor nestructurate (modele specifice procesării textelor). Recapitulare | Prelegere, conversație, exemplificare | 2 ore ([1] –cap 13, 18, [4], [2] – cap 7), [6] |
Course bibliography
Charu C. Aggarwal. Data Mining – the textbook, Springer, 2015 M. H. Dunham. Data Mining. Introductory and Advanced Topics, Pearson Education 2003 F. Gorunescu, Data Mining. Concepts, Models and Techniques, Springer, 2011 C. D. Manning, P. Raghavan and H. Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. I.H. Witte, E. Frank, M.A. Hall. Data Mining – Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2011 J. Leskovec, A. Rajaraman, J. Ullman – Mining of Massive Datasets, http://infolab.stanford.edu/~ullman/mmds.html, 2020 D. Kroese, Z. Botev, T.Taimre, R. Vaisman, Data Science and Machine Learning: Mathematical and Statistical Methods, CRC Press, 2020 S. Skiena, The Data Science Design Manual, Springer, 2017 D. Zaharie: suport de curs în format electronic (Google Classroom – code 2b2cjlhv)
Seminar content
| Content | Methods | Obs |
|---|---|---|
| L1. Seturi și colectii de date. Introducere în instrumentele software utilizate (Pandas si Scikit-learn). | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L2. Pre-procesarea si vizualizarea datelor | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L3. Tehnici de clasificare. Clasificatori bazați pe instanțe, arbori de decizie și reguli de clasificare. Clasificatori bazați pe modele probabiliste, rețele neuronale, clasificatori bazati pe vectori suport | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L4. Tehnici de grupare. Algoritmi partitionali, algoritmi ierarhici și algoritmi bazați pe densitate. | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L5. Extragerea regulilor de asociere. Aplicații în analize de tip “coș de cumpărături” . Probleme de regresie. | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L6. Analiza seriilor de timp și predicție. | Problematizare, dialog, învățare prin colaborare | 2 ore |
| L7. Metode de tip ansamblu. Procesarea datelor nestructurate. | Problematizare, dialog, învățare prin colaborare | 2 ore |
Seminar bibliography
Colecții de date de test: http://archive.ics.uci.edu/ml/datasets, https://www.kaggle.com/ J. Grus, Data Science from Scratch. First Principles with Python, O’Reilly, 2015 D. Zaharie - suport pentru laborator (Google Classroom – code 2b2cjlhv)
Corroboration
Conţinutul este în concordanţă cu structura cursurilor similare de la alte universităţi şi acoperă aspectele fundamentale utilizării tehnicilor de analiză a datelor și de extragere a modelelor din date
AI tools guidance
Evaluation and delivery
| Activity | Criteria | Methods | Percentage |
|---|---|---|---|
| C |
|
|
|
| C |
|
|
|
| S |
|
|
|
Performance standards
cunoașterea conceptelor de bază din analiza datelor abilitatea de a implementa un algoritm de extragere a cunoștințelor din date capacitatea de a identifica tehnica de clasificare, grupare, regresie adecvată rezolvării unei probleme reale abilitatea de a utiliza instrumente software dedícate extragerii de cunoștințe din date Nota finală se calculează ca medie ponderată a notelor acordate pentru componentele specificate la 10.4 și 10.5. Examenul se consideră promovat dacă media este cel puțin 5 (fiecare notă care intră în calculul mediei trebuie să fie cel puțin 4). La fiecare dintre sesiunile de examen (inclusiv cele de restanță și măriri) nota se calculează după aceeași regulă. In sesiunea de restanțe/măriri se pot da doar probele la care nu s-a obținut notă de promovare (minim 5), cu excepția cazului în care studentul dorește să susțină și probele deja promovate.
Additional info
(none)