@Fabric Foundation Selain struktur inti, desain kata kunci memiliki banyak detail yang langsung memengaruhi hasil keluaran LLM, dan detail-detail ini sering kali diabaikan oleh pemula, serta merupakan kunci untuk meningkatkan kualitas terjemahan. Berdasarkan dua tahun pengalaman praktis, berikut adalah 6 detail inti yang telah dirangkum, di mana setiap detail memiliki metode desain dan contoh spesifik yang dapat langsung diterapkan.
1. Detail penyebaran glosarium (inti konsistensi)
Konsistensi istilah adalah persyaratan inti dari terjemahan profesional, dan juga merupakan bagian yang paling mudah bermasalah dalam terjemahan LLM—terutama di bidang profesional (AI, teknologi, kedokteran, hukum), perbedaan terjemahan untuk istilah yang sama dapat secara serius memengaruhi profesionalisme dan keterbacaan terjemahan. Detail inti dari penyebaran glosarium dalam kata kunci tidak terletak pada 'menggambarkan istilah', tetapi pada 'menyediakan batasan yang jelas, memudahkan pengenalan model', detail spesifiknya adalah sebagai berikut:
① Format daftar istilah yang jelas: Letakkan daftar istilah setelah modul kebutuhan inti dari kata kunci, menggunakan format “istilah asli=terjemahan dalam bahasa target”, jelas dan mudah dikenali oleh LLM. Misalnya, “daftar istilah inti: 1. Prompt Engineering=提示词工程; 2. Large Language Model=大语言模型 (singkatan LLM); 3. Hallucination=幻觉; 4. Agent=智能体; 5. Moat=护城河; 6. AI Wrapper=AI套壳; 7. Fine-tuning=微调; 8. Context Window=上下文窗口.”
② Batasan istilah yang jelas: Setelah daftar istilah, tambahkan instruksi batasan yang jelas, memastikan LLM ketat mengikuti daftar istilah saat menerjemahkan, menghindari perubahan secara sembarangan. Misalnya, “Semua istilah harus diterjemahkan dengan ketat sesuai dengan daftar istilah di atas, dilarang mengubah terjemahan secara sembarangan; jika istilah yang sama muncul berkali-kali, terjemahannya harus sepenuhnya konsisten; jika menemukan istilah yang tidak ada dalam daftar istilah, harus mempertimbangkan konteks dan ungkapan umum di bidang terkait, memilih terjemahan yang paling akurat untuk memastikan konsistensi istilah.”
③ Prioritas istilah yang jelas: Jika dalam teks asal muncul bentuk singkatan istilah, harus jelas hubungan antara singkatan dan nama lengkap dalam daftar istilah, untuk menghindari kebingungan LLM. Misalnya, "penjelasan tambahan: LLM adalah singkatan dari Large Language Model, saat menerjemahkan harus menggunakan ‘model bahasa besar’ terlebih dahulu, pada kemunculan pertama dapat dicantumkan singkatan (model bahasa besar, LLM), pada kemunculan berikutnya langsung menggunakan ‘model bahasa besar’ saja."
④ Penyederhanaan daftar istilah: Daftar istilah tidak perlu mencantumkan semua istilah umum, cukup pertahankan istilah yang "mudah salah terjemah, kontroversial, khusus bidang", untuk menghindari redundansi. Misalnya, dalam bidang AI, istilah seperti “Machine Learning=机器学习” yang dapat secara akurat diterjemahkan oleh model itu sendiri, tidak perlu ditambahkan ke dalam daftar istilah; sedangkan istilah seperti “Hallucination=幻觉” (mudah salah terjemah menjadi “错觉”), “Moat=护城河” (mudah salah terjemah menjadi “竞争壁垒”) yang mudah salah terjemah, harus dimasukkan dalam daftar istilah, menjadi fokus pembatasan.
Contoh: Saat menerjemahkan dokumen teknis AI, fragmen kata kunci yang disematkan dalam daftar istilah: “Daftar istilah inti: 1. Prompt Engineering=提示词工程; 2. Hallucination=幻觉; 3. Agent=智能体; 4. Context Window=上下文窗口; 5. Fine-tuning=微调. Semua istilah harus diterjemahkan dengan ketat sesuai dengan daftar istilah di atas, dilarang mengubah terjemahan secara sembarangan; jika istilah yang sama muncul berkali-kali, terjemahannya harus konsisten; LLM adalah singkatan dari Large Language Model, diterjemahkan menjadi ‘model bahasa besar’, pada kemunculan pertama cantumkan singkatan (model bahasa besar, LLM), pada kemunculan berikutnya langsung gunakan nama lengkap.”
2. Rincian desain batasan konteks (inti akurasi)
LLM sering mengalami masalah “ketidakselarasan konteks” saat menangani terjemahan teks panjang—istilah, gaya kalimat sebelumnya tidak konsisten dengan yang berikutnya, atau mengabaikan logika konteks dari teks asal, yang mengarah pada penyimpangan makna terjemahan. Oleh karena itu, dalam kata kunci harus ditambahkan batasan konteks, mengarahkan LLM untuk memperhatikan logika keseluruhan, mempertahankan koherensi dan akurasi terjemahan, rincian spesifiknya sebagai berikut:
① Menetapkan persyaratan hubungan konteks yang jelas: Tambahkan instruksi yang mengarahkan LLM untuk menerjemahkan dengan mempertimbangkan konteks keseluruhan, menghindari terjemahan yang terpisah untuk kalimat tunggal. Misalnya, “Saat menerjemahkan harus mempertimbangkan konteks keseluruhan, memahami makna inti dan hubungan logis dari teks asal (sebab-akibat, pergeseran, kemajuan, perbandingan, dll.), hindari terjemahan yang terpisah untuk kalimat tunggal; memastikan terjemahan koheren secara keseluruhan, istilah dan gaya kalimat tetap konsisten, tanpa terjadi ketidakselarasan konteks.”
② Batasan konteks untuk terjemahan teks panjang yang dibagi: Jika konten terjemahan cukup panjang (melebihi jendela konteks LLM), perlu diterjemahkan dalam blok, pada saat itu perlu menambahkan instruksi penghubung konteks untuk memastikan koherensi antara blok yang berbeda. Misalnya, “Konten terjemahan kali ini dibagi menjadi 5 blok, saat menerjemahkan setiap blok, perlu mempertimbangkan terjemahan blok sebelumnya dan konteks teks asal, memastikan istilah dan gaya kalimat konsisten; setelah menerjemahkan semua blok, perlu memeriksa keseluruhan, menyesuaikan bagian penghubung, memastikan keseluruhan koheren, dan logika jelas.”
③ Penanganan konteks kalimat ambigu: LLM sering kali mengalami kesalahan terjemahan saat menghadapi kalimat ambigu, oleh karena itu perlu menambahkan instruksi yang mengarahkan LLM untuk mempertimbangkan konteks dalam menilai makna. Misalnya, “Saat menghadapi kata polisemi, kalimat ambigu, perlu mempertimbangkan konteks untuk menilai makna spesifik, memilih terjemahan yang paling sesuai dengan makna teks asal, untuk menghindari penyimpangan makna akibat terjemahan yang terpisah; jika makna tidak dapat ditentukan, harus mempertahankan makna teks asal dan tidak menebak secara sembarangan.”
Contoh: Saat menerjemahkan teks panjang, fragmen kata kunci tentang batasan konteks: “Konten terjemahan kali ini adalah cuplikan makalah teknis AI (total 4 paragraf), saat menerjemahkan perlu mempertimbangkan konteks keseluruhan, memahami logika inti dan poin teknologi dari makalah; setiap terjemahan paragraf harus koheren dengan paragraf sebelumnya dan sesudahnya, dengan konsistensi dalam terjemahan istilah, dan keseragaman gaya kalimat; saat menghadapi kalimat ambigu atau kata polisemi, harus mempertimbangkan konteks untuk menilai makna spesifik, memastikan akurasi makna terjemahan, tanpa terjadi ketidakselarasan konteks atau penyimpangan makna; setelah menyelesaikan terjemahan paragraf, perlu memeriksa keseluruhan bagian yang terhubung, mengoptimalkan kalimat, meningkatkan koherensi keseluruhan.”
3. Rincian desain prioritas instruksi (inti efisiensi)
Prioritas instruksi dari kata kunci secara langsung memengaruhi distribusi perhatian LLM—jika instruksi tidak memiliki prioritas, LLM mungkin mengabaikan kebutuhan inti dan fokus pada instruksi sekunder, yang mengarah pada penurunan kualitas terjemahan. Oleh karena itu, saat merancang kata kunci, harus jelas menetapkan prioritas instruksi, agar LLM lebih dulu fokus pada kebutuhan inti sebelum menangani kebutuhan tambahan, rincian spesifiknya sebagai berikut:
① Penandaan prioritas yang jelas: Pisahkan instruksi dari kata kunci menjadi “instruksi inti” dan “instruksi tambahan”, dengan penanda yang jelas (seperti “instruksi inti” dan “instruksi tambahan”), instruksi inti ditempatkan di depan, instruksi tambahan di belakang, untuk mengarahkan LLM fokus pada instruksi inti terlebih dahulu. Misalnya, “instruksi inti: 1. Terjemahan yang akurat, tidak melewatkan atau salah terjemah makna inti teks asal, ketat mengikuti daftar istilah; 2. Bahasa target adalah Bahasa Mandarin Sederhana, sesuai dengan kebiasaan penggunaan di daratan Tiongkok; 3. Pertahankan format Markdown dari teks asal. Instruksi tambahan: 1. Gaya formal, ketat, menggunakan bahasa tertulis; 2. Optimalisasi kalimat, hindari terjemahan kata demi kata; 3. Tanda baca sesuai dengan kebiasaan penggunaan Bahasa Mandarin.”
② Penyederhanaan instruksi inti yang fokus: Instruksi inti tidak boleh terlalu banyak, sebaiknya fokus pada tiga inti yaitu “akurasi, konsistensi, bahasa target”, dibatasi dalam 3-4 poin untuk menghindari LLM kehilangan fokus. Instruksi tambahan dapat ditambahkan sesuai kebutuhan, tetapi tidak boleh terlalu banyak, untuk menghindari redundansi.
③ Penekanan instruksi kunci yang menonjol: Untuk instruksi inti yang sangat penting (seperti konsistensi istilah, akurasi makna), dapat menggunakan cara penekanan (seperti huruf tebal), untuk lebih mengarahkan perhatian LLM. Misalnya, “instruksi inti: 1. Terjemahan harus akurat tanpa kesalahan, ketat mempertahankan makna inti dari teks asal, dilarang melewatkan, salah terjemah, atau menambah, terutama untuk informasi kunci seperti angka, nama, dan istilah profesional; 2. Terjemahan istilah harus sepenuhnya konsisten, ketat mengikuti daftar istilah, dilarang mengubah secara sembarangan; 3. Bahasa target adalah Bahasa Mandarin Sederhana, sesuai dengan kebiasaan penggunaan di daratan Tiongkok.”
Catatan: Penekanan tidak boleh berlebihan, hanya digunakan untuk instruksi yang paling inti, jika tidak, akan kehilangan efek penekanan dan malah mengganggu penilaian LLM.
4. Rincian desain panduan contoh (adaptasi skenario kompleks)
Untuk beberapa kebutuhan terjemahan yang kompleks (seperti terjemahan metafora, optimasi kalimat, penyesuaian ekspresi profesional), instruksi teks yang sederhana sulit dipahami oleh LLM, pada saat itu, menambahkan panduan contoh, membiarkan LLM merujuk pada contoh saat menerjemahkan, dapat secara efektif meningkatkan kualitas terjemahan dan mengurangi kesalahpahaman. Rincian desain panduan contoh, kunci ada pada “contoh yang sesuai dengan kebutuhan, singkat dan jelas”, sebagai berikut:
① Contoh yang sangat sesuai dengan kebutuhan: Contoh harus sesuai dengan skenario terjemahan saat ini, gaya nada, dan kebutuhan inti, menghindari contoh yang tidak sesuai dengan kebutuhan. Misalnya, saat menerjemahkan kalimat metaforis, contoh harus memilih kalimat yang memiliki jenis metafora yang serupa dengan teks asal, mengarahkan LLM untuk menguasai keterampilan terjemahan metafora; saat menerjemahkan makalah akademis, contoh harus menggunakan bahasa tulisan akademis, sesuai dengan norma kalimat dari makalah akademis.
② Contoh harus singkat dan mudah dipahami: Contoh tidak boleh terlalu panjang, cukup 1-2 saja, fokus pada “metode terjemahan yang benar”, sekaligus dapat menjelaskan secara singkat pemikiran optimalisasi dari contoh tersebut, agar LLM memahami logika di baliknya. Misalnya, “Contoh: Teks asal ‘The Swiss had been watching the Japanese in the rear view mirror all through the 1960s’, bukan terjemahan langsung ‘从后视镜里看’, tetapi terjemahan makna menjadi ‘Selama seluruh tahun 1960-an, orang Swiss selalu melihat orang Jepang sebagai pengejar di belakang’, sesuai dengan kebiasaan ungkapan dalam bahasa Mandarin, mempertahankan makna metaforis dari teks asal; silakan terjemahkan kalimat metaforis berikut sesuai contoh ini, hindari terjemahan langsung dari makna harfiah, pahami maksud teks asal sebelum menerjemahkan.”
③ Contoh dan instruksi yang saling berkaitan: Contoh harus berkaitan dengan instruksi inti dalam kata kunci (seperti optimasi kalimat, terjemahan metafora), memperkuat pemahaman LLM terhadap instruksi. Misalnya, jika kata kunci meminta "hindari terjemahan kata demi kata, optimalkan kalimat", contoh harus menunjukkan "kekurangan terjemahan kata demi kata" dan "terjemahan yang dioptimalkan", agar LLM jelas tentang arah optimasi.
Contoh: Menerjemahkan kalimat metaforis dalam artikel populer, fragmen kata kunci yang memandu: “Instruksi inti: Saat menerjemahkan, hindari terjemahan langsung untuk kalimat metaforis, pahami maksud metaforis dari teks asal, terjemahkan secara makna dengan mempertimbangkan kebiasaan ungkapan dalam bahasa Mandarin, pertahankan makna inti dan emosional dari teks asal. Contoh 1: Teks asal ‘AI is a double-edged sword’, bukan terjemahan langsung ‘AI是一把双刃剑’, tetapi terjemahan makna menjadi ‘Kecerdasan buatan adalah pedang bermata dua, memiliki keuntungan dan juga risiko yang potensial’, yang mempertahankan makna metaforis dan mudah dipahami oleh pembaca biasa; Contoh 2: Teks asal ‘He broke the ice in the negotiation’, bukan terjemahan langsung ‘他打破了谈判中的冰’, tetapi terjemahan makna menjadi ‘Dia memecahkan kebuntuan dalam negosiasi’, sesuai dengan kebiasaan ungkapan dalam bahasa Mandarin. Silakan terjemahkan kalimat metaforis berikut sesuai contoh di atas, memastikan terjemahan makna akurat, mengalir, dan mudah dipahami.”
5. Rincian desain optimasi Token (penambahan efisiensi)
LLM memiliki jendela konteks yang terbatas, jika kata kunci menggunakan terlalu banyak Token, akan mengurangi konten teks asal yang dapat diterjemahkan, dan mungkin mempengaruhi hasil keluaran LLM. Oleh karena itu, saat merancang kata kunci, harus memperhatikan optimasi Token, dengan tetap memastikan instruksi yang akurat, mengurangi redundansi, menghemat Token, rincian spesifiknya sebagai berikut:
① Menghapus instruksi redundan: Menghapus instruksi yang berulang dan tidak relevan, untuk menghindari penumpukan instruksi. Misalnya, “terjemahan harus akurat” dan “dilarang melewatkan atau salah terjemah”, pada dasarnya adalah kebutuhan yang sama, hanya perlu mempertahankan salah satu; “terjemahan harus lancar” dan “hindari terjemahan kata demi kata”, dapat digabungkan menjadi satu kalimat “terjemahan harus alami dan lancar, hindari terjemahan kata demi kata, sesuai dengan kebiasaan ungkapan dalam bahasa Mandarin.”
② Sederhanakan pernyataan, pertahankan inti: Sederhanakan instruksi yang kompleks, pertahankan makna inti, hindari pernyataan yang sulit dipahami dan bertele-tele. Misalnya, ubah “Saat menerjemahkan, harus ketat mengikuti makna inti dari teks asal, tanpa menambahkan konten yang tidak ada dalam teks asal, dan tanpa menghilangkan informasi penting dari teks asal, memastikan akurasi dan kelengkapan terjemahan” menjadi “Pertahankan makna inti dari teks asal secara ketat, dilarang menambah atau mengurangi terjemahan, memastikan terjemahan akurat dan lengkap.”
③ Penyederhanaan daftar istilah: Seperti yang disebutkan sebelumnya, daftar istilah hanya mempertahankan istilah yang mudah salah terjemah dan kontroversial, menghapus istilah umum yang dapat diterjemahkan dengan akurat oleh model itu sendiri, mengurangi penggunaan Token.
