هجایی ( / s ɪ ˌ l æ b ɪ f ɪ ˈ k eɪ ʃ ən / ) یا هجایی ( / s ɪ ˌ l æ b ɪ ˈ k eɪ ʃ ən / ) که به عنوان جداسازی یک کلمه نیز شناخته می شود، جداسازی کلمه است . هجاها ، اعم از گفتاری، نوشتاری [1] یا امضایی. [2]
جداسازی نوشتاری به هجاها معمولاً هنگام استفاده از املای انگلیسی (مثلاً syl-la-ble) و با یک نقطه در هنگام رونویسی هجاهای واقعی گفتاری در الفبای آوایی بینالمللی با خط فاصله مشخص میشود (مثلاً [ˈsɪl.ə.bᵊɫ] ). . برای مقاصد ارائه، تایپوگرافها ممکن است از یک نویسه یونیکد U+00B7، به عنوان مثال، هجا)، یک «نقطه خط فاصله» (U+2027، مثلاً syl‧la‧ble) یا فاصله استفاده کنند . (به عنوان مثال، syl la ble).
در انتهای یک سطر، یک کلمه به صورت نوشتاری به قطعاتی تقسیم میشود که معمولاً «هجا» نامیده میشود، اگر با خط همخوانی نداشته باشد و اگر به سطر بعدی منتقل شود، سطر اول بسیار کوتاهتر از بقیه میشود. این می تواند یک مشکل خاص با کلمات بسیار طولانی، و با ستون های باریک در روزنامه ها باشد. پردازش کلمه، فرآیند توجیه را خودکار کرده است ، و هجای کلمات کوتاهتر را اغلب غیرضروری میکند.
در برخی از زبان ها، هجاهای گفتاری نیز مبنای هجایی در نوشتار هستند. با این حال، احتمالاً به دلیل تطابق ضعیف بین صداها و حروف در املای انگلیسی مدرن، هجای نوشتاری در انگلیسی بیشتر بر اساس اصول ریشهشناختی یا صرفی ، به جای آوایی ، استوار است. مثلاً نمی توان با توجه به هجایی صحیح زبان زنده، «یادگیری» را به عنوان یادگیری هجایی کرد. دیدن فقط lear- در انتهای یک سطر ممکن است خواننده را در تلفظ نادرست کلمه گمراه کند، زیرا دیگراف ea میتواند مقادیر بسیار متفاوتی داشته باشد . تاریخ املای انگلیسی چنین پدیده هایی را به حساب می آورد.
بنابراین، هجای نوشتاری انگلیسی با مفهومی از «هجا» سروکار دارد که با مفهوم زبانی یک واحد واجی (در مقابل صرفی) مطابقت ندارد.
در نتیجه، حتی بیشتر انگلیسی زبانان بومی قادر به هجا کردن کلمات بر اساس قوانین تعیین شده بدون مراجعه به فرهنگ لغت یا استفاده از واژهپرداز نیستند. مدارس معمولاً بیشتر از مشورت با یک فرهنگ لغت در مورد موضوع توصیه نمی کنند. علاوه بر این، تفاوت هایی بین هجای انگلیسی و آمریکایی و حتی بین فرهنگ لغت های مشابه انگلیسی وجود دارد.
در زبانهای فنلاندی ، ایتالیایی ، پرتغالی ، ژاپنی ( Romaji )، کرهای ( رومیشده ) و سایر زبانهای تقریباً از نظر واجی، نویسندگان میتوانند در اصل هر کلمه موجود یا تازه ایجاد شده را با استفاده از قوانین کلی به درستی هجا کنند. در فنلاند، ابتدا به کودکان آموزش داده می شود که هر کلمه را خط خط بکشند تا زمانی که هجای صحیح را به طور قابل اعتماد تولید کنند، پس از آن می توان خط فاصله را حذف کرد.
الگوریتم خط خطی مجموعه ای از قوانین است، به ویژه قوانینی که برای پیاده سازی در یک برنامه کامپیوتری مدون شده است، که تصمیم می گیرد در کدام نقطه یک کلمه را می توان در دو خط با خط فاصله شکست. برای مثال، یک الگوریتم خط فاصله ممکن است تصمیم بگیرد که استیضاح را می توان به عنوان استیضاح یا استیضاح شکست داد ، اما نه استیضاح .
یکی از دلایل پیچیدگی قواعد واژهشکنی این است که گویشهای مختلف انگلیسی در خط فاصله با یکدیگر تفاوت دارند: انگلیسی آمریکایی تمایل دارد روی صدا کار کند، اما انگلیسی بریتانیایی تمایل دارد به ریشههای کلمه و سپس به صدا نگاه کند. . [ نیاز به نقل از ] همچنین تعداد زیادی استثنا وجود دارد، که مسائل را پیچیده تر می کند. [ نیازمند منبع ]
برخی از قواعد سرانگشتی را می توان در "درباره خط فاصله - هرج و مرج پدانتری" سرگرد کیری یافت. [3] در میان رویکردهای الگوریتمی خط فاصله، روشی که در سیستم حروفچینی TeX پیاده سازی شده است به طور گسترده ای مورد استفاده قرار می گیرد. این به طور کامل در دو جلد اول رایانه ها و حروفچینی توسط دونالد کنوت و در پایان نامه فرانکلین مارک لیانگ مستند شده است. [4] هدف از کار لیانگ این بود که الگوریتم را تا حد امکان دقیق کند و استثناها را به حداقل برساند.
در الگوهای خط خطی اصلی TeX برای انگلیسی آمریکایی، لیست استثنا فقط شامل 14 کلمه است. [5]
پورت های الگوریتم خط خطی TeX به عنوان کتابخانه برای چندین زبان برنامه نویسی در دسترس هستند، از جمله Haskell ، JavaScript ، Perl ، PostScript ، Python ، Ruby ، C# و TeX را می توان برای نشان دادن خط فاصله در گزارش با دستور ساخت \showhyphens
.
در LaTeX ، تصحیح خط فاصله توسط کاربران می تواند با استفاده از:
خط خطی{کلمات}
این \hyphenation
فرمان نقاط خط خطی مجاز را اعلام می کند که در آنها کلمات لیستی از کلمات هستند که با فاصله از هم جدا شده اند و در آن هر نقطه خط فاصله با یک -
کاراکتر نشان داده می شود. به عنوان مثال،
\hyphenation{fortran er-go-no-mic}
اعلام می کند که در شغل فعلی «فرترن» نباید خط خطی شود و اگر «ارگونومیک» باید خط خطی شود، در یکی از نقاط مشخص شده خواهد بود. [6]
با این حال، چندین محدودیت وجود دارد. به عنوان مثال، \hyphenation
دستور stock به صورت پیشفرض فقط حروف ASCII را میپذیرد و بنابراین نمیتوان از آن برای تصحیح خط فاصله برای کلمات با کاراکترهای غیرASCII (مانند ä ، é ، ç ) استفاده کرد که در بسیاری از زبانها بسیار رایج هستند. با این حال، راهحلهای ساده وجود دارد. [7] [8]