Σύλληψη του ήχου και ψηφιοποίηση του αναλογικού σήματος
Δειγματοληψία
Kατά την εισαγωγή του αναλογικού ήχου μέσω του μικροφώνου ,αυτό πρέπει να ψηφιοποιηθεί ώστε να μπορεί να επεξεργασθεί κατάλληλα από τον Υ/Η και να μεταδοθεί. Κάθε αναλογικό σήμα αποτελεί μία συνεχή συνάρτηση τάσης . Για να μπορέσουμε να το ψηφιοποιήσουμε εκτελούμε την διαδικασία της δειγματοληψίας σύμφωνα με την οποία ανά τακτά χρονικά διαστήματα (ίσα με το αντίστροφο της συχνότητας δειγματοληψίας ) λαμβάνουμε την στιγμιαία τιμή του πλάτους του σήματος. Σύμφωνα με την θεωρία του Nyquist για να επιτύχουμε την ανακατασκευή του σήματος από το ψηφιοποιημένο πρέπει η συχνότητα δειγματοληψίας να είναι τουλάχιστον διπλάσια από την μέγιστη συχνότητα που περιέχει το σήμα. Για μετάδοση φωνής έχει αποδειχθεί ότι οι κυριότερες συνιστώσες της βρίσκονται έως τα 4ΚΗz και το εύρος αυτό είναι ικανό να διατηρήσει τα ιδιαίτερα χαρακτηριστικά της φωνής ,ώστε αυτή να είναι αναγνωρίσιμη. Άρα θα έχουμε πλήρη αναπαράσταση με συχνότητα δειγματοληψίας 8ΚΗz .Η συχνότητα αυτή χρησιμοποιείται ευρέως για την δειγματοληψία λόγου και είναι ιδιαίτερα διαδεδομένη στην τηλεφωνία. Σε περίπτωση που θέλουμε να καλύψουμε το πλήρες φάσμα των συχνοτήτων που αντιλαμβάνεται το ανθρώπινο αυτί (20 Ηz έως 20ΚΗz ) χρησιμοποιούμε συχνότητα άνω των 40KHz και συγκεκριμένα έχει τυποποιηθεί στα 44.1KHz.
Κωδικοποίηση
Oι τιμές του πλάτους του σήματος (ήχου) που λαμβάνονται κατά την δειγματοληψία κωδικοποιούνται σε ένα διακριτό αριθμό σταθμών κωδικοποίησης των οποίων ο αριθμός εξαρτάται από τον αριθμό των bits που χρησιμοποιείται για την αναπαράσταση της κάθε τιμής . Για τον ψηφιακό ήχο τα bits της λέξης κωδικοποίησης ποικίλουν από 8 (256 στάθμες) έως 16 ( 65536 στάθμες) . Ο κβαντισμός των δειγμάτων του σήματος εισάγει σφάλμα στο κωδικοποιούμενο σήμα αφού κάποια πληροφορία θα χαθεί κατά την στρογγυλοποίηση της δειγματοληπτούμενης τιμής. Όσο περισσότερες είναι όμως οι στάθμες (περισσότερα bits για κάθε λέξη) τόσο μικρότερο είναι το εισαγόμενο σφάλμα.
Ο πιο απλός τρόπος κωδικοποίησησης είναι η παλμοκωδική διαμόρφωση (Pulse Code Modulation ) και χρησιμοποιείται σχεδόν αποκλειστικά για την κωδικοποίηση φωνής μιας και δεν είναι ιδιαίτερα αποδοτική . Υπάρχουν διάφοροι τρόποι αντιστοίχησης των σταθμός στο εύρος των τιμών που θέλουμε να καλύψουμε. Κατά την γραμμική (ομοιόμορφη) κωδικοποίηση το πλήθος των σταθμών κατανέμεται εξίσου σε όλο το εύρος του πεδίου τιμών του σήματος. κατά την κωδικοποίηση αυτή δεν πραγματοποιείται συμπίεση και το προκύπτων σήμα έχει πολύ μεγάλο μέγεθος. Για τον λόγο αυτό έχουν προταθεί άλλες τεχνικές αντιστοίχησης όπως η λογαριθμική κωδικοποίηση PCM . Οι τεχνικές αυτές είναι γνωστές ως mu-law PCM και A-law PCM και πετυχαίνουν συμπίεση ικανή ώστε να καθίσταται δυνατή η συμπίεση και αποσυμπίεση του ήχου σε πραγματικό χρόνο, όπως απαιτείται στα συστήματα τηλεδιάσκεψης.
Mu-law PCM και A-law PCM
H διαφορά της λογαριθμικής αντιστοίχησης από την ομοιόμορφη, έγκειται στο πλεονέκτημα της πρώτης να αντιστοιχεί περισσότερες στάθμες στις χαμηλές συχνότητες και λιγότερες στις υψηλές . Στις χαμηλές συχνότητες περιέχεται το μεγαλύτερο ποσοστό της πληροφορίας που μας ενδιαφέρει ενώ στις υψηλότερες παρουσιάζεται το πρόβλημα του υψίσυχνου θορύβου. Χρησιμοποιώντας την λογαριθμική κωδικοποίηση έχουμε καλύτερη αναπαράσταση του σήματος και ταυτόχρονα επιτυγχάνουμε συμπίεση. Χρησιμοποιώντας 8 bits και λογαριθμική κωδικοποίηση καλύπτουμε το ίδιο εύρος τιμών με ομοιόμορφη PCM κωδικοποίηση 14 bits. Πρόκειται για μία συμπίεση της τάξης του 1,75 προς 1. Για την κωδικοποίηση φωνής με δειγματοληψία 8 bits και για την μετάδοση ενός μόνο καναλιού απαιτείται bandwith 64Kbps. Οι Mu-law και A-law PCM μέθοδοι κωδικοποίησης έχουν τυποποιηθεί από το διεθνή τηλεπικοινωνιακό φορέα ITU-Τ (International Telecommunication Union - Telecommunication Standardization Sector) στο πρότυπο G.711, "Pulse Code Modulation (PCM) of voice frequencies." . Το πρότυπο αυτό είναι μέρος των γενικής σύστασης H.320, H.321, H.322 ,H323 του ίδιου οργανισμού για την τυποποίηση της τηλεδιάσκεψης. Το G.711 περιγράφει τους πίνακες σύμφωνα με τους οποίους πραγματοποιούνται τα δύο είδη κωδικοποίησης . Η Mu-law χρησιμοποιείται κυρίως σε δίκτυα ISDN (Integrated Services Digital Network) κυρίως στην Βόρεια Αμερική και την Ιαπωνία ενώ ο A-law χρησιμοποιείται στα ΙSDN στις υπόλοιπες χώρες .
ADPCM κωδικοποίηση (Adaptive Differential Pulse Code Modulation)
Oι PCM μέθοδοι κωδικοποίησης ,το κάθε δείγμα κβαντοποιείται ανεξάρτητα από τα υπόλοιπα. Επειδή γειτονικά δείγματα είναι πολύ πιθανό να είναι όμοια αν όχι ίδια είναι δυνατό να προβλεφτεί η τιμή ενός δείγματος με βάση την τιμή του γειτονικού του. Για παράδειγμα θα μπορούσε να θεωρηθεί ότι το επόμενο δείγμα θα είναι ίδιο με το τρέχον. Κατά την ADPCM κωδικοποίηση υπολογίζεται η διαφορά μεταξύ της πραγματικής τιμής του δείγματος και της τιμής που είχε προβλεφτεί και κωδικοποιείται. Η διαφορά απαιτεί λιγότερα bits (συνήθως 4) για να αναπαρασταθεί και με τον τρόπο αυτό επιτυγχάνεται συμπίεση. Η συμπίεση αυτή είναι 2:1 σε σύγκριση με τις τεχνικές Mu-law PCM και A-law PCM . Υπάρχουν διάφοροι αλγόριθμοι πρόβλεψης της γειτονικής τιμής. Η κωδικοποίηση αυτή έχει τυποποιηθεί από τον ITU σε μια σειρά συστάσεων των οποίων η διαφορά έγκειται στον τρόπο πρόβλεψης της τιμής καθώς και στα bits που χρησιμοποιούνται για την αναπαράσταση της διαφοράς . Τα πρότυπα αυτά είναι τα G.721 , G.722 , G.723 , G.726 , G.727 .
LPC και CELP κωδικοποίηση
Yπάρχουν μερικές νέες τεχνικές κωδικοποίησης ήχου οι οποίες έχουν σχεδιαστεί ειδικά για την ανθρώπινη ομιλία και επιτυγχάνουν σημαντικούς βαθμούς συμπίεσης. Το μειονέκτημα των μεθόδων αυτών εντοπίζεται στην αδυναμία τους να επεξεργασθούν άλλο σήμα εκτός της ομιλίας. Οι τεχνικές αυτές βρήκαν πρόσφορο έδαφος στο πεδίο της τηλεδιάσκεψης όπου η ομιλία είναι το κύριο μεταφερόμενο ηχητικό σήμα. Δύο σημαντικές τέτοιου είδους μέθοδοι είναι η LPC και CELP .
Ο LPC (Linear Predictive Coding) κωδικοποιητής συγκρίνει τα σήματα φωνής που λαμβάνει με ένα αναλυτικό μοντέλο φωνής που έχει αποθηκευμένο .Τα χαρακτηριστικά που ταιριάζουν καλύτερα στο αναλυτικό μοντέλο μεταδίδονται . Ο αποκωδικοποιητής χρησιμοποιεί τα χαρακτηριστικά αυτά για να ανασυνθέσει τα φωνητικά σήματα . Η καλή απόδοση του LPC αποκαλύπτεται από το bandwidth Που απαιτεί για την μετάδοση φωνής . Για παράδειγμα στο στάνταρ U.S Federal 1015 όπου χρησιμοποιείται απαιτείται μόλις 2.4Kbps. Η GSM (Groupe Speciale Mobile) κωδικοποίηση χρησιμοποιεί ένα είδος LPC που ονομάζεται RPE-LPC (Regular Pulse Excited - Linear Predictive Coder with a Long Term Predictor Loop). Η κωδικοποίηση αυτή που δημιουργήθηκε για να εξυπηρετήσει την μετάδοση ομιλίας στη κινητή κυψελωτή τηλεφωνία μετατρέπει 160 δείγματα των 13 bits (2080 bits) σε 260 bits που αντιστοιχεί σε συμπίεση 8:1. Για δειγματοληψία 8KHz που απαιτείται για την φωνή η GSM κωδικοποίηση απαιτεί bandwidth 13Kbps.
Ο CELP (Code Excited Linear Prediction) κωδικοποιητής κάνει την ίδια σύγκριση του φωνητικού σήματος όπως και ο LPC . Επιπρόσθετα όμως υπολογίζει το σφάλμα μεταξύ των παραμέτρων του πραγματικού φωνητικού σήματος και των παραμέτρων του αναλυτικού μοντέλου φωνής που χρησιμοποιεί. Εκτός από τις βέλτιστες παραμέτρους μεταδίδει και το σφάλμα κωδικοποιημένο. Με τον τρόπο αυτό η ποιότητα της φωνής είναι καλύτερη από αυτή της κωδικοποίησης LPC. Τα στάνταρ που τυποποιούν αυτήν την κωδικοποίηση είναι το U.S. Federal Standard 1016 το οποίο απαιτεί bandwidth 4.8Kbps . Υπάρχει επίσης η σύσταση G.728 του διεθνή οργανισμού ITU που χρησιμοποιεί ένα τύπο της CELP ,την LD-CELP (Low Delay CELP). H κωδικοποίηση κατά την σύσταση G.728 , απαιτεί bandwidth 16Kbps και είναι ιδιαίτερα πολύπλοκη υπολογιστικά. Το G.728 είναι μέρος της γενικής σύστασης Η.320, H.321 , H.322 , H.323 του ITU για εφαρμογές τηλεδιάσκεψης.