facebook ΚΕΔΙΒΙΜ/ΟΠΑ

Web Scraping και Εφαρμογές Εξόρυξης Κειμένου με Python 3

PI_textan
Σύντομη περιγραφή προγράμματος
Το πρόγραμμα εστιάζει στη συλλογή (web scraping) και επεξεργασία δεδομένων κειμένου (text mining). Χαρακτηριστικά παραδείγματα δεδομένων text είναι οι κριτικές πελατών και ειδικών (customer and expert reviews), τα σχόλια των χρηστών σε πλατφόρμες κοινωνικής δικτύωσης (social media posts), blogs, άρθρα σε πλατφόρμες ενημέρωσης (news articles) και οι περιγραφές προϊόντων σε ιστοσελίδες ηλεκτρονικού εμπορίου. Η ύλη του προγράμματος καλύπτει όλα τα στάδια της διαδικασίας που πρέπει να ολοκληρώσει καποιος που επιθυμεί να δουλέψει με δεδομένα κειμένου: συλλογή από τον παγκόσμιο ιστό (web scraping), προετοιμασία (clearing and parsing) και ανάλυση. Μέσα από το μάθημα, οι εκπαιδευόμενοι θα αποκτήσουν τις απαραίτητες γνώσεις πάνω στη γλώσσα προγραμματισμού Python και θα μάθουν πως να χρησιμοποιούν την Python για να λύσουν πρακτικά προβλήματα σχετικά με δεδομένα κειμένου, όπως επεξεργασία συναισθημάτων (sentiment analysis), κατηγοριοποίηση (classification), μοντελοποίηση θεμάτων (topic modeling), δημιουργία περιλήψεων summarization), και επεξεργασία οντοτήτων (entity extraction and disambiguation).
Τρόπος διεξαγωγής
Το πρόγραμμα χρησιμοποιεί την εκπαιδευτική μέθοδο eLearning: η μάθηση γίνεται αμιγώς ασύγχρονα (δηλαδή σε ημέρες και ώρες που εξυπηρετούν τον καταρτιζόμενο, χωρίς να υπάρχει υποχρεωτική παρακολούθηση σε συγκεκριμένη ώρα ή ημέρα), αποκλειστικά εξ αποστάσεως (με χρήση ειδικής εκπαιδευτικής πλατφόρμας μέσω διαδικτύου και Η/Υ από το χώρο του καταρτιζόμενου) και με την χρήση ψηφιακών εκπαιδευτικών εργαλείων όπως η παρακολούθηση βιντεοδιαλέξεων, η επίλυση διαδραστικών ασκήσεων αυτοαξιολόγησης και άλλα εργαλεία elearning που εξασφαλίζουν την αποτελεσματική και ευέλικτη ατομική αυτό-εκμάθηση. Το εκπαιδευτικό υλικό του προγράμματος γίνεται διαθέσιμο σε συγκεκριμένες χρονικές περιόδους, με βάση το μονοπάτι εκπαίδευσης που ακολουθείται, και εν συνεχεία παραμένει διαθέσιμο στην πλατφόρμα εκπαίδευσης χωρίς περιορισμούς σε όλη τη διάρκεια του προγράμματος.
Μαθησιακά αποτελέσματα
Στο τέλος του εκπαιδευτικού προγράμματος, ο εκπαιδευόμενος θα είναι σε θέση να χρησιμοποιεί την Python για να:
  • Γράφει χρήσιμα scripts για πρακτικά tasks
  • Αξιοποιεί δημοφιλείς δομές δεδομένων και βιβλιοθήκες
  • Συλλέγει αυτόματα μεγάλους όγκους δεδομένων από τον παγκόσμιο ιστό
  • Επεξεργάζεται δεδομένα κειμένου και να τα προετοιμάζει για ανάλυση
  • Εξάγει πολύτιμες πληροφορίες από μεγάλους όγκους δεδομένων κειμένου
  • Αναλύει κριτικές πελατών
  • Αναλύει περιγραφές προϊόντων
  • Χρησιμοποιεί δεδομένα κειμένου για να αξιολογήσει την ανταγωνιστικότητα ανάμεσα σε δύο οντότητες (π.χ. προϊόντα ή επιχειρήσεις)
  • Αναλύει σχόλια χρηστών από πλατφόρμες κοινωνικής δικτύωσης
  • Εξάγει απόψεις και συναισθήματα από δεδομένα κειμένου
  • Αξιολογεί διάφορες διαστάσεις δεδομένων κειμένου
  • Δημιουργεί μια αντιπροσωπευτική περίληψη μιας μεγάλης συλλογής κειμένων
  • Ομαδοποιεί και κατηγοριοποιεί κείμενα με βάση την λεξικογραφική και νοηματική ομοιότητά τους.
  • Επιλέγει αντιπροσωπευτικές λέξεις (tags) που περιγράφουν με ακρίβεια ένα προϊόν ήοποιαδήποτε άλλη οντότητα για την οποία υπάρχουν διαθέσιμα δεδομένα κειμένου.
Θεματικές ενότητες
  1. Εισαγωγή στην Python
    (Διάρκεια Θεματικής Ενότητας: 4 εβδομάδες) Εγκατάσταση Python και των σχετικών βιβλιοθηκών, Εισαγωγή στην Python Ι: θεμελιώδεις έννοιες και απλά προγράμματα, Εισαγωγή στην Python ΙΙ: Δομές Δεδομένων, Εισαγωγή στην Python ΙΙΙ: Διαβάζοντας και γράφοντας σε αρχεία κειμένου.
  2. Συλλογή και Επεξεργασία Κειμένων
    (Διάρκεια Θεματικής Ενότητας: 3 εβδομάδες) Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό I (Web Scraping), Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό II, Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό III, Επεξεργασία και προετοιμασία δεδομένων I (Data Cleaning and Parsing) .
  3. Εφαρμογή Text Mining 1: Ανάλυση Απόψεων και Συναισθημάτων (Opinion and Sentiment Analysis)
    (Διάρκεια Θεματικής Ενότητας: 2 Εβδομάδες)
    • Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
    • Ανάλυση απόψεων και συναισθημάτων Ι (opinion mining & sentiment analysis)
    • Ανάλυση απόψεων και συναισθημάτων ΙΙ
    • Αξιολόγηση και Περίληψη (evaluation & summarization)
  4. Εφαρμογή Μάρκετινγκ 2: Ομαδοποίηση κειμένων (document clustering)
    (Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα)
    • Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
    • Εφαρμοσμένη ομαδοποίηση διαφορετικών ειδών δεδομένων
  5. Εφαρμογή Text Mining 3: Κατηγοριοποίηση κειμένων (document classification)
    (Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα)
    • Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
    • Εφαρμοσμένη κατηγοριοποίηση διαφορετικών ειδών κειμένων
  6. Εφαρμογή Μάρκετινγκ 4: Εξόρυξη Περιγραφικών Λέξεων (Tag Extraction)
    (Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα) Συλλογή και προετοιμασία δεδομένων (data collection & parsing), Εξόρυξη περιγραφικών λέξεων (tag extraction) από περιγραφές προϊόντων.
Εκπαιδευτικό υλικό
  • Python Scripts (με εσωτερικά σχόλια) για κάθε μια από τις ενότητες του προγράμματος
  • Εικονοσκοπημένες διαλέξεις που θα συνοδεύουν τα Scripts.
  • Ηλεκτρονικές σημειώσεις και βιβλιογραφία
  • Πλήθος διαδραστικών ασκήσεων, ερωτήσεις πολλαπλής επιλογής και λυμένες ασκήσεις
Η αξία του προγράμματος
Μέσα από το παρόν εκπαιδευτικό πρόγραμμα, οι εκπαιδευόμενοι θα μάθουν πως να χρησιμοποιούν την Python για να εξάγουν και να αξιοποιούν τις πληροφορίες αυτές από διάφορα είδη δεδομένων κειμένου.
Μέθοδοι αξιολόγησης και υπολογισμού τελικού βαθμού
Υποβολή εργασιών ανά θεματική ενότητα. Η επιτυχημένη ολοκλήρωση του προγράμματος και η απονομή πιστοποιητικού κατάρτισης απαιτούν την λήψη τελικού βαθμού τουλάχιστον 50%.
Γλώσσα Διδασκαλίας
Ελληνικά
Προθεσμία υποβολής αιτήσεων: 19/05/2023
Έναρξη προγράμματος: 24/05/2023
Ολοκλήρωση προγράμματος: 20/08/2023
Επιστημονική περιοχή
Τρόπος διεξαγωγής
Μονάδες ECTS: 3
Ώρες ασύγχρονης κατάρτισης: 60
Περιλαμβάνονται οι ώρες κατάρτισης (ενδεικτικά) με χρήση πλατφόρμας ασύγχρονης τηλεκπαίδευσης (eLearning).
Επιπλέον ώρες ενασχόλησης: 30
Περιλαμβάνονται οι επιπλέον ώρες ενασχόλησης (ενδεικτικά) και μπορεί να περιλαμβάνουν ατομική μελέτη, συγγραφή εργασιών, συμμετοχή σε επιτόπιες επισκέψεις, συμμετοχή σε εξετάσεις, κ.α.
Συνολικές ώρες: 90
Οι συνολικές ώρες περιλαμβάνουν τις ώρες σύγχρονης και ασύγχρονης κατάρτισης, καθώς και τις επιπλέον ώρες ενασχόλησης.
Εβδομάδες εκπαίδευσης: 12
Περιλαμβάνονται οι εβδομάδες κατά τις οποίες προβλέπονται δραστηριότητες οποιασδήποτε μορφής.
Πιστοποιητικό Επαγγελματικής Εκπαίδευσης και Κατάρτισης
Στους εκπαιδευόμενους που θα ολοκληρώσουν επιτυχώς το πρόγραμμα χορηγείται Πιστοποιητικό Επαγγελματικής Εκπαίδευσης και Κατάρτισης του Κέντρου Επιμόρφωσης και Δια Βίου Μάθησης του Οικονομικού Πανεπιστημίου Αθηνών, το οποίο συνοδεύεται από Συμπλήρωμα του Πιστοποιητικού, στο οποίο αναφέρονται αναλυτικά το αντικείμενο του προγράμματος, οι θεματικές ενότητες που παρακολούθησε ο εκπαιδευόμενος, καθώς και η μεθοδολογία εκπαίδευσης που ακολουθήθηκε.
Υποστήριξη
Γραμματεία προγραμμάτων eLearning, Αυτή η διεύθυνση ηλεκτρονικού ταχυδρομείου προστατεύεται από τους αυτοματισμούς αποστολέων ανεπιθύμητων μηνυμάτων. Χρειάζεται να ενεργοποιήσετε τη JavaScript για να μπορέσετε να τη δείτε., 210 8203753
Εκπαιδευτική και τεχνική υποστήριξη προγραμμάτων eLearning, Αυτή η διεύθυνση ηλεκτρονικού ταχυδρομείου προστατεύεται από τους αυτοματισμούς αποστολέων ανεπιθύμητων μηνυμάτων. Χρειάζεται να ενεργοποιήσετε τη JavaScript για να μπορέσετε να τη δείτε., 210 8203754
Σε ποιους απευθύνεται
  • Σε ενδιαφερόμενους χωρίς εμπειρία στον προγραμματισμό που επιθυμούν να ασχοληθούν με την ανάλυση δεδομένων κειμένου και το web scraping.
  • Σε έμπειρους προγραμματιστές που θέλουν να μάθουν πως να χρησιμοποιούν την Python για επεξεργασία κειμένου και web scraping.
  • Σε όσους θα ήθελαν να κάνουν μια εισαγωγή στον προγραμματισμό με Python μέσα από πρακτικές εφαρμογές.
  • Σε όσους θα ήθελαν να αποκτήσουν εμπειρία με όλα τα στάδια της εξόρυξης γνώσης:
  • συλλογή δεδομένων (web scraping), προετοιμασία δεδομένων (cleaning/parsing),
  • ανάλυση/μοντελοποίηση (analysis/modeling), εξόρυξη χρήσιμων ευρημάτων (insight extraction).
Προαπαιτούμενες Γνώσεις
  • Απολυτήριο λυκείου.
  • Βασικές γνώσεις χρήσης Η/Υ (επεξεργασία κειμένου, φύλλα εργασίας, φυλλομετρητές, ηλεκτρονικό ταχυδρομείο).
Έγγραφα που ζητούνται κατά την υποβολή της αίτησης (πληροφορίες)
Βιογραφικό σημείωμα (προαιρετικό)
Αντίγραφο δικαιολογητικών για τη χορήγηση έκπτωσης (προαιρετικό)
Αποδεικτικό έγγραφο προσωπικών στοιχείων (υποχρεωτικό)
Επιστημονικός Υπεύθυνος
Εκπαιδευτές
Τρόποι και συχνότητα επικοινωνίας με τους εκπαιδευτές
Οι εκπαιδευόμενοι θα έχουν την δυνατότητα σε συνεχή βάση να χρησιμοποιούν τις περιοχές ηλεκτρονικών συζητήσεων της πλατφόρμας τηλεκπαίδευσης και να επικοινωνούν και μέσω ηλεκτρονικού ταχυδρομείου ή Skype σε προκαθορισμένες μέρες και ώρες.
Κόστος
ELEARNING: 250€
Επιδότηση ΛΑΕΚ
Βάσει της σχετικής νομοθεσίας, το πρόγραμμα δεν εμπίπτει σε επιδότηση ΛΑΕΚ.
Περιγραφή δόσεων
Το συνολικό ποσό των διδάκτρων ανέρχεται στα 250€ και καταβάλλεται σε δύο δόσεις. Η πρώτη δόση, των 120€, καταβάλλεται ως προκαταβολή πριν την έναρξη των μαθημάτων, για την κατοχύρωση της θέσης και η δεύτερη, των 130€, καταβάλλεται προτού το πρόγραμμα ολοκληρωθεί κατά το ήμισυ. Σε περίπτωση έκπτωσης, τα άνω ποσά μειώνονται αναλογικά. Ειδικά στην περίπτωση έκπτωσης 20%, τα άνω ποσά διαμορφώνονται στα 200€ (σύνολο ποσού), 120€ (πρώτη δόση – προκαταβολή) και 80€ (δεύτερη δόση). Οι καταρτιζόμενοι ενημερώνονται σχετικά με τις ακριβείς προθεσμίες και τα ύψη των δόσεων με την αποδοχή τους στο πρόγραμμα, μέσω μηνύματος ηλεκτρονικού ταχυδρομείου.
Εκπτωτική πολιτική (Δικαιολογητικά)
Άνεργοι: 20%
Φοιτητές ΑΕΙ/ΤΕΙ: 20%
Ομαδική εγγραφή (τουλ. 4 ατόμων της ίδιας επιχείρησης/οργανισμού): 20%
Τρίτεκνοι/πολυτεκνοι: 20%
Συνταξιούχοι με οικογενειακό εισόδημα κάτω από το όριο της φτώχειας: 20%
Άτομα με αναπηρία ή χρόνιες σοβαρές παθήσεις: 20%
Κάτοχοι Ευρωπαϊκής Κάρτας Νέων: 10%

Ενδεικτικά σχόλια από άτομα που ολοκλήρωσαν το πρόγραμμα

2 comments

Πρόκειται για ένα αρκετά καλά δομημένο πρόγραμμα, με αρκετά πλούσια ύλη για το χρονικό διάστημα που διεξάγεται, και που σίγουρα προσφέρει καλές εισαγωγικές βάσεις σε όποιον ενδιαφέρεται για το αντικείμενο. Σημαντικό επίσης είναι και ότι οι γνώσεις που αποκτούνται είναι ξεκάθαρο πώς μπορούν να χρησιμοποιηθούν στην αγορά εργασίας.

Δημήτρης Μ.
Senior Statistician

ΔΜ
Μια εμπεριστατωμένη εισαγωγή στον τομέα της επεξεργασίας φυσικής γλώσσας από διαδικτυακές πηγές.
ΣΑ
Μια απαραίτητα πρακτική έκθεση σε ένα πολύ χρήσιμο τομέα.
ΙΧ
Το πρόγραμμα είναι πολύ ενδιαφέρον και εμπλουτίζει τις γνώσεις των εκπαιδευόμενων γύρω από τη γλώσσα προγραμματισμού Python ως προς την εξόρυξη υλικού στο διαδίκτυο.
ΝΖ
Το σεμινάριο του πανεπιστημίου ΟΠΑ, web scraping και text mining με python 3 μου φανήκε πάρα πολύ χρήσιμο και είμαι σίγουρος ότι στο μέλλον θα χρειάστω αυτά που έμαθα.
ΧΠ

ΕΠΙΚΟΙΝΩΝΙΑ

Κεφαλληνίας 46, 11251, Αθήνα

  • dummy kedivim-opa@aueb.gr

  • dummy210 8203 912


Για τα Δια Ζώσης Προγράμματα:

  • dummydz@aueb.gr

  • dummy210 8203 916, 912, 914

 

Για τα eLearning Προγράμματα:

  • dummysecretary@elearning.aueb.gr

  • dummy210 8203 753, 754

ΕΚΔΗΛΩΣΗ ΕΝΔΙΑΦΕΡΟΝΤΟΣ

Οικονομικό Πανεπιστήμιο Αθηνών

© Copyright ΚΕΔΙΒΙΜ - Οικονομικό Πανεπιστήμιο Αθηνών

Search

Save
Cookies user preferences
Χρησιμοποιούμε μόνο τεχνικά απαραίτητα cookies για την πραγματοποίηση της σύνδεσης στην ιστοσελίδα. Εφόσον εξακολουθείτε να χρησιμοποιείτε τον ιστότοπό μας, προτείνουμε τη χρήση των cookies.
Αποδοχή όλων
Απόρριψη όλων
Περισσότερα
Marketing
Set of techniques which have for object the commercial strategy and in particular the market study.
Facebook
Αποδοχή
Απόρριψη
Google Analytics
Αποδοχή
Απόρριψη
Google
Αποδοχή
Απόρριψη