معيار Unicode
قياس نصوص Unicode باستخدام نماذج NFC و NFD و NFKC و NFKD.
الإدخال
الإخراج
ملف القراءة
ما هو توحيد يونيكود؟
يحدد يونيكود طرقًا متعددة لتمثيل نفس الحرف المرئي. على سبيل المثال، يمكن تخزين الحرف "é" كنقطة كود مركبة واحدة (U+00E9) أو كحرف "e" متبوعًا بعلامة لهجة حادة مدمجة (U+0065 U+0301). كلاهما يتم عرضه بشكل متطابق لكنهما مختلفان بايت تلو الآخر، مما يسبب مشاكل في مقارنة السلاسل والبحث ومعالجة النصوص.
توحيد يونيكود هو عملية تحويل النص إلى تمثيل قانوني بحيث تصبح السلاسل المكافئة متطابقة. يحدد معيار يونيكود أربع أشكال توحيد:
- NFC (التحليل القانوني متبوعًا بالتركيب القانوني): شكل مركب؛ الأكثر إحكاما، وعلى نطاق واسع على الويب وفي معظم أنظمة التشغيل.
- NFD (التحليل القانوني): شكل مفكك بالكامل؛ يتم تقسيم كل حرف إلى حرف أساسي بالإضافة إلى علامات مدمجة.
- NFKC (تحليل التوافقية متبوعًا بالتركيب القانوني): مثل NFC لكنه يطوي أيضًا أحرف التوافقية (على سبيل المثال، الربطات، الأحرف العلوية، المتغيرات بالعرض الكامل) إلى معادلاتها القانونية.
- NFKD (تحليل التوافقية): مثل NFD لكنه يطبق أيضًا تحليل التوافقية.
وصف الأداة
تقوم هذه الأداة بتوحيد نص يونيكود من شكل توحيد إلى آخر. حدد الأشكال المصدر والهدف، والصق النص الخاص بك، وسيظهر الناتج المحول على الفور.
الميزات
- جميع أشكال التوحيد الأربعة: يدعم NFC و NFD و NFKC و NFKD كمصدر وهدف.
- التحويل ثنائي الاتجاه: قم بالتبديل بين أي مجموعة من الأشكال بحرية.
- الإخراج في الوقت الفعلي: يتم توحيد النص على الفور أثناء الكتابة أو اللصق.
- يتعامل مع أي نص يونيكود: يعمل مع اللاتينية و CJK والعربية والسيريلية وأي نص مشفر بيونيكود آخر.
كيف يعمل
تطبق الأداة طريقة JavaScript القياسية String.prototype.normalize() مع شكل الهدف المحدد. هذا تطبيق متوافق تماما مع معيار توحيد يونيكود كما هو محدد في Unicode Standard Annex #15.
حالات الاستخدام
- إصلاح مقارنة السلاسل: وحد النص قبل مقارنته أو فهرسته للتأكد من أن السلاسل المتطابقة بصريًا تتطابق بشكل صحيح.
- اتساق البحث وقاعدة البيانات: وحد إدخال المستخدم إلى شكل واحد (عادة NFC) قبل تخزينه في قاعدة البيانات لمنع الإدخالات المكررة التي تختلف فقط في الترميز.
- طي التوافقية: استخدم NFKC لطي الربطات والأحرف العلوية والأحرف بالعرض الكامل إلى معادلاتها القياسية للبحث في الفهرس أو معالجة اللغة الطبيعية.