محتوى الذكاء الاصطناعي مقابل المحتوى البشري: ماذا كشف اختبار أعمى مع 500 قارئ؟

ذهبنا إلى هذه التجربة بسؤال بسيط: هل يستطيع القراء التمييز بين المحتوى الذي كتبه الذكاء الاصطناعي والمحتوى الذي كتبه إنسان؟

الجواب، بعد اختبار 28 قطعة محتوى على 500 قارئ في اختبار أعمى منظّم، هو: أحياناً. وهذا “الأحياناً” هو المكان الذي تقع فيه المعلومات المفيدة الحقيقية.

هذه المقالة هي رواية كاملة لما فعلناه، وما وجدناه، وما يعنيه ذلك لأي شخص يتخذ قرارات بشأن محتوى الذكاء الاصطناعي في مؤسسته. كانت النتائج أكثر دقة مما يتنبأ به الطرح المتفائل أو المتشائم حول الكتابة بالذكاء الاصطناعي — وهذا، في رأينا، هو ما يجعلها تستحق المشاركة.

لماذا أجرينا هذه التجربة؟

يميل النقاش حول جودة محتوى الذكاء الاصطناعي إلى توليد الحرارة أكثر من الأدلة. يقول المنتقدون إن الكتابة بالذكاء الاصطناعي قابلة للكشف ونمطية وتضر بثقة القراء. ويقول المؤيدون إن محتوى الذكاء الاصطناعي لا يمكن تمييزه عن الكتابة البشرية وأن فروق الجودة متخيَّلة. كلا الفريقين يستشهد بقصص وأمثلة. لم يُجرِ أيٌّ منهما اختباراً مضبوطاً مع قراء حقيقيين يُقدّمون تقييمات حقيقية.

أردنا الأدلة، لا الادعاءات. تحديداً، أردنا معرفة ثلاثة أشياء:

بأي معدل يحدد القراء بشكل صحيح المحتوى المكتوب بالذكاء الاصطناعي مقابل البشري حين لا يعرفون أيهما أيّ؟
هل يحصل محتوى الذكاء الاصطناعي أو المحتوى البشري على درجات أعلى في أبعاد الجودة — الوضوح والعمق والمصداقية والتفاعل — في حالة الاختبار الأعمى؟
هل تتغير تصورات الجودة بعد معرفة القراء أي المحتوى أنشأه الذكاء الاصطناعي؟

السؤال الأخير هو الأهم لاستراتيجية المحتوى. القارئ الذي لا يستطيع التمييز بين محتوى الذكاء الاصطناعي والمحتوى البشري أثناء القراءة يختلف عن القارئ الذي يُخفّض تقييمه بأثر رجعي بمجرد علمه بالمصدر. كلاهما ظاهرة حقيقية. أردنا قياسهما بشكل منفصل.

المنهجية

اختيار المحتوى

اخترنا 14 قطعة كتبها بشر و14 قطعة أنشأها الذكاء الاصطناعي عبر خمس فئات محتوى:

أدلة تقنية (4 بشرية، 4 ذكاء اصطناعي): محتوى إرشادي خطوة بخطوة حول موضوعات التسويق والرقمنة
رأي وتحليل (3 بشرية، 3 ذكاء اصطناعي): وجهات نظر تحليلية حول اتجاهات القطاع
دراسات حالة (2 بشرية، 2 ذكاء اصطناعي): روايات سردية عن حملات تسويقية ونتائجها
تجميعات بيانات (2 بشرية، 2 ذكاء اصطناعي): قطع تركيبية تنظّم بيانات وأبحاثاً من مصادر خارجية
بروفايلات على شكل مقابلات (3 بشرية، 3 ذكاء اصطناعي): محتوى مكتوب ليمثل صوت شخص بعينه ومنظوره

أُنتج المحتوى بالذكاء الاصطناعي باستخدام Claude Sonnet 4.5 مع بريفات تحريرية مفصّلة — نفس جودة البرومبت التي يستخدمها فريقنا في الإنتاج الفعلي. لم يُنشر أي محتوى بعد برومبت خمس دقائق؛ بل مرّت كل قطعة بسير العمل التحريري المعتاد للذكاء الاصطناعي من التوجيه والإنشاء والمراجعة (دون إعادة كتابة بشرية).

جاء المحتوى البشري من أرشيفنا الخاص ومن أربعة محررين خارجيين كتبوا حول موضوعات ذات صلة.

جرى تحرير جميع القطع لضمان طول متسق (900–1,400 كلمة)، وإزالة أسماء الكتّاب وتواريخ النشر، وتنسيقها بشكل متطابق قبل عرضها على المشاركين.

استقطاب المشاركين

استقطبنا 500 مشارك من قائمة نشرتنا البريدية ومنصات التواصل الاجتماعي ولجنة متخصصة. خضع المشاركون لفرز يشترط:

خبرة مهنية لا تقل عن ثلاث سنوات في التسويق أو الاتصالات أو المحتوى أو مجال مشابه
قراءة منتظمة للمحتوى المهني في مجالهم (ساعتان على الأقل أسبوعياً)
عدم العمل الحالي في شركة ذكاء اصطناعي

اخترنا المهنيين بشكل متعمد بدلاً من المستهلكين العاديين. السؤال الذي طرحناه — هل تستطيع التمييز بين الكتابة البشرية وكتابة الذكاء الاصطناعي؟ — يبقى أكثر أهمية استراتيجية للجمهور الأكثر احتمالاً لإنشاء أو استهلاك المحتوى المهني في السياقات B2B.

شكّل المشاركون المقيمون في الأسواق الناطقة بالإنجليزية 58% من العينة، والناطقون بالعربية 31%، وغيرهم 11%. تراوحت الأعمار بين 24 و61 عاماً بوسيط 34 عاماً.

هيكل الاختبار

قيّم كل مشارك أربع قطع محتوى بترتيب عشوائي. بعد قراءة كل قطعة:

قيّم المحتوى على خمسة أبعاد: الوضوح والعمق والمصداقية والتفاعل والفائدة (كل منها على مقياس 1–10)
أجاب على: “هل تعتقد أن هذا المحتوى كتبه إنسان أم ذكاء اصطناعي أم أنك غير متأكد؟”
حدد ثقته في تقييمه على مقياس 1–5

بعد اكتمال تقييمات جميع القطع الأربع، أُطلع المشاركون على أي المحتوى أنشأه الذكاء الاصطناعي وأيها كتبه إنسان. ثم أعادوا تقييم كل قطعة على نفس الأبعاد الخمسة.

القيود

نُقرّ منذ البداية: هذه تجربة شركة واحدة وليست بحثاً محكّماً. يعكس محتوى الذكاء الاصطناعي منهجنا التحريري الذي قد لا يعمّم على جميع حالات الكتابة بالذكاء الاصطناعي. تميل العينة نحو المسوقين المهنيين. وفئات المحتوى التي اخترناها قد لا تمثل حالة استخدامك بالضبط.

ما تقدمه هذه التجربة هو أدلة توجيهية من اختبار حقيقي، لا دراسة معمل مضبوطة.

ماذا وجدنا؟

دقة الكشف

عبر 2,000 تقييم فردي (500 مشارك × 4 قطع لكل منهم)، حدّد المشاركون بشكل صحيح محتوى الذكاء الاصطناعي بوصفه ذكاءً اصطناعياً 49% من الوقت، وحدّدوا المحتوى البشري بوصفه بشرياً 61% من الوقت.

بلغ معدل الدقة الإجمالي 55% — أفضل بالكاد من الحدس العشوائي.

هذا هو الرقم العنواني، ويستحق سياقاً. التخمين العشوائي في خيار ثنائي يعطي دقة 50%. المهنيون المسوقون المتمرسون، يقرؤون محتوى مهنياً في مجال خبرتهم، حددوا المصدر بشكل صحيح بخمس نقاط مئوية فوق التخمين. المشاركون “الواثقون” — من قيّموا يقينهم بـ 4 أو 5 — كانوا دقيقين 59% من الوقت. أفضل، لكن ليس بشكل لافت.

أحدثت فئة المحتوى فرقاً كبيراً:

بروفايلات المقابلات: دقة كشف 72% (الأعلى). برع القراء في ملاحظة الشخصية المصنوعة.
الأدلة التقنية: دقة 48% — أي الحظ في الأساس. عجز القراء عن التمييز بشكل موثوق في التنسيقات الإرشادية.
الرأي والتحليل: دقة 54%.
دراسات الحالة: دقة 51%.
تجميعات البيانات: دقة 46% — أقل من الحظ، أي أن القراء مالوا للتخمين بأنها بشرية حين كانت في الغالب ذكاءً اصطناعياً.

تقييمات الجودة في الاختبار الأعمى

حين لم يعرف القراء المصدر، كيف قارن محتوى الذكاء الاصطناعي بالمحتوى البشري في أبعاد الجودة؟

البُعد	متوسط البشري	متوسط الذكاء الاصطناعي	الفرق
الوضوح	7.4	7.8	الذكاء الاصطناعي +0.4
العمق	7.1	6.6	البشري +0.5
المصداقية	7.3	7.2	لا يُذكر
التفاعل	6.9	6.7	البشري +0.2
الفائدة	7.5	7.3	البشري +0.2

النمط: حصل محتوى الذكاء الاصطناعي على درجات أعلى قليلاً في الوضوح، بينما حصل المحتوى البشري على درجات أعلى قليلاً في العمق والتفاعل والفائدة. الفوارق صغيرة. كانت المصداقية متطابقة في الأساس.

ما يخبرنا به هذا: في الاختبار الأعمى، يرى القراء المهنيون أن محتوى الذكاء الاصطناعي أنظف وأسهل قراءة، فيما يجد القراء في المحتوى البشري مزيداً من العمق والفائدة. كلا الفجوتين متواضعتان — أقل من نصف نقطة على مقياس عشري.

كان التوزيع حسب الفئات أكثر وضوحاً. في الأدلة التقنية، جاء محتوى الذكاء الاصطناعي مكافئاً للمحتوى البشري في جميع الأبعاد تقريباً. وفي الرأي والتحليل، تفوق المحتوى البشري في العمق (+1.2 نقطة) والتفاعل (+0.9 نقطة). وفي بروفايلات المقابلات، تفوق المحتوى البشري في المصداقية (+1.8 نقطة).

التقييمات بعد الكشف

هنا يصبح الأمر مثيراً.

بعد علم المشاركين بالمحتوى المنشأ بالذكاء الاصطناعي، أعادوا تقييم كل شيء. بقيت التقييمات الأعمى المتوسطة في السياق، فتمكنّا من قياس التغيير الذي أحدثه ظهور “الذكاء الاصطناعي” بدقة.

لم تتغير تقييمات المحتوى البشري جوهرياً بعد الكشف. لم يرفع القراء أو يخفض القراء تقييماتهم بشكل ملحوظ بمجرد علمهم بأنه محتوى بشري. يشير هذا إلى أن التقييمات الأعمى للمحتوى البشري كانت تعكس تقييماً حقيقياً للجودة، لا انتفاخاً من افتراض التأليف البشري.

تغيرت تقييمات محتوى الذكاء الاصطناعي جوهرياً في بُعد واحد: انخفضت المصداقية بمتوسط 1.6 نقطة بعد الكشف. ثبتت درجات الوضوح والعمق والتفاعل. لكن المصداقية — الدرجة التي شعر فيها القراء بإمكانية الثقة بالمحتوى والاعتماد عليه — انخفضت بشكل كبير بمجرد علم القراء بأنهم يطلعون على محتوى مُنشأ بالذكاء الاصطناعي.

لم يكن انخفاض المصداقية متماثلاً عبر أنواع المحتوى:

الأدلة التقنية: انخفاض مصداقية 0.8 نقطة. متواضع.
قطع الرأي: انخفاض مصداقية 2.1 نقطة. كبير.
بروفايلات المقابلات: انخفاض مصداقية 2.9 نقطة. ضخم.

استعد القراء لمنح مصداقية كبيرة لمحتوى الذكاء الاصطناعي في التنسيقات الإرشادية. أما حين ادّعى المحتوى تمثيل منظور أو صوت شخص بعينه، فكانوا أقل استعداداً بكثير لذلك.

المجموعة الناطقة بالعربية

توفرت لدينا بيانات كافية من المشاركين الناطقين بالعربية (157 شخصاً) لتحليلها بشكل منفصل. كان نمط الكشف مختلفاً بشكل لافت.

حدّد المشاركون الناطقون بالعربية محتوى الذكاء الاصطناعي بوصفه ذكاءً اصطناعياً بشكل صحيح 64% من الوقت — أعلى بكثير من المتوسط العام. وكانت دقتهم على المحتوى البشري 63%، مماثلة للعينة الكلية.

لا تفسير قاطع لدينا لهذا الفارق. فرضيتنا أن المحتوى العربي المُنشأ بالذكاء الاصطناعي — رغم جودته العالية — يعكس أنماطاً في الكتابة العربية الرسمية أكثر قابلية للكشف للقراء المنغمسين في الكتابة المهنية العربية. تتسم اللغة العربية بتباين كبير في المستوى والرسمية، وقد تنتج النماذج المُدرَّبة أساساً على بيانات إنجليزية لغة عربية صحيحة تقنياً لكن طبقتها الصوتية خاطئة، وهو ما قد يلحظه الناطقون بالعربية بشكل أوضح.

لهذه النتيجة انعكاسات مباشرة على المؤسسات التي تنتج محتوى بالذكاء الاصطناعي بالعربية: قد يكون سقف الاكتشاف أعلى، والاستثمار في المراجعة التحريرية من قِبل متحدثين أصليين للمحتوى العربي المُنشأ بالذكاء الاصطناعي أهم على الأرجح مما هو عليه للمحتوى الإنجليزي.

ما الذي فاجأنا؟

انهيار المصداقية حول الرأي والصوت. توقعنا بعض الغرامة في مصداقية محتوى الذكاء الاصطناعي بعد الكشف. لم نتوقع أن تتمركز بهذا التحديد في تنسيقات الرأي والمقابلة. لم تتحرك الأدلة التقنية إلا قليلاً. حافظ المحتوى التفسيري والإرشادي للذكاء الاصطناعي على ثقة القراء حتى بعد الإفصاح. لكن المحتوى الذي ادّعى تمثيل منظور إنساني أو صوت بعينه عانى من انخفاض كبير في المصداقية عند كشف مصدره.

الانعكاس ليس أن محتوى الذكاء الاصطناعي غير جدير بالثقة. بل أن القراء يمنحون المصداقية لـ ادعاء المصدر في المحتوى، لا لمضمون معلوماته فحسب. حين يدّعي محتوى الذكاء الاصطناعي تمثيل طريقة تفكير شخص ما أو ما قاله، فإن ادعاء المصدر يهم بطريقة لا تُلاحَظ في المواد الإرشادية. هذا يستحق التصميم الصريح حوله.

المهنيون الشباب تأثروا أكثر بالكشف. أظهر المشاركون دون 30 عاماً أكبر انخفاض في المصداقية بعد كشف الذكاء الاصطناعي — 2.2 نقطة في المتوسط، مقارنة بـ 1.1 نقطة لمن تجاوزوا 45 عاماً. هذا مناقض للحدس إذا ما أخذنا في الاعتبار كم يستخدم المهنيون الشباب أدوات الذكاء الاصطناعي شخصياً. تفسيرنا: الجيل الأكثر إلماماً بقدرات الذكاء الاصطناعي هو أيضاً الأكثر شكوكاً إزاء ادعاءات الذكاء الاصطناعي في تمثيل منظور إنساني حقيقي.

الكاشفون “الواثقون” لم يكونوا أكثر دقة. المشاركون الأكثر ثقة في أحكام الذكاء الاصطناعي مقابل الإنسان كانوا أكثر دقة بهامش ضئيل فحسب. وقعت إجابات خاطئة بثقة عالية بتكرار يكاد يوازي الإجابات الصحيحة بثقة عالية. الاعتقاد الواثق بالكشف لا يعني كشفاً موثوقاً.

الفائدة صمدت أفضل مما توقعنا. حتى بعد علم القراء بأن المحتوى ذكاء اصطناعي، انخفضت درجات الفائدة بمتوسط 0.4 نقطة فحسب. القراء الذين وجدوا محتوى الذكاء الاصطناعي مفيداً فعلاً في الاختبار الأعمى لا يزالون يجدونه كذلك في الغالب بعد الكشف. هذا مهم لاستراتيجية المحتوى: إذا حل محتوى الذكاء الاصطناعي مشكلة القارئ الحقيقية، فإن وسم “الذكاء الاصطناعي” لا يلغي تلك القيمة بشكل ملموس.

ماذا يعني هذا لاستراتيجية المحتوى؟

عدة قرارات تنبثق من هذه النتائج، وقد بدأنا في تطبيقها صراحةً في AlsheikhMedia.

حسّن محتوى الذكاء الاصطناعي للعمق، لا للوضوح فحسب. تميل مسودات الذكاء الاصطناعي إلى الوضوح بشكل افتراضي. فجوة الجودة الحقيقية هي في العمق — الفارق بين محتوى يغطي موضوعاً ومحتوى يُضيء عليه. يجب أن يتجه الجهد التحريري نحو دفع مسودات الذكاء الاصطناعي لتكون أكثر تحديداً وأصالةً وارتكازاً على أدلة أو تجارب حقيقية.

طابق التنسيق مع المصدر. الأدلة التقنية وتركيبات البيانات والمحتوى الإرشادي مجالات يؤدي فيها المحتوى المُنشأ بالذكاء الاصطناعي أداءً مقارباً للمحتوى البشري مع ثبات مصداقيته بعد الكشف. أما الرأي والتحليل وأي محتوى يمثل منظور شخص بعينه، فهي مجالات يعتمد فيها التنسيق على مصادر أصيلة. لا تضع محتوى الذكاء الاصطناعي في إطار يدّعي أنه رأي شخص حقيقي ما لم يعكس تفكيره الفعلي — المُطوَّر تعاونياً مع الذكاء الاصطناعي، لا المفوَّض بالكامل إليه.

فكّر في تصميم الإفصاح. تشير تجربتنا إلى أن الإفصاح ذاته ليس المتغير الأساسي — بل نوع المحتوى هو ما يهم. لا يعاقب القراء محتوى الذكاء الاصطناعي بشكل منتظم بعد معرفة مصدره. يعاقبونه في الفئات التي تُشكّل فيها المصادر الأصيلة جزءاً من قيمة المحتوى. يعني هذا أن سياسات الإفصاح الشاملة أقل دقة مما ينبغي. قد يكون نهج الإفصاح الذي يميز بين “أُنشئت هذه المقالة بمساعدة الذكاء الاصطناعي” وبين “هذا يعكس المنظور الحقيقي للمؤلف المُسمَّى، المُطوَّر بدعم من الذكاء الاصطناعي” أكثر صدقاً وفائدةً من التوسيم الموحّد.

خذ فجوة الكشف العربي على محمل الجد. إن كنت تنتج محتوى بالذكاء الاصطناعي باللغة العربية لجمهور مهني ناطق بالعربية، فاستثمر بشكل أعمق في المراجعة التحريرية من قِبل متحدثين أصليين مما قد تفعل للمحتوى الإنجليزي المكافئ. يشير معدل الكشف في تجربتنا إلى أن سقف جودة محتوى الذكاء الاصطناعي العربي غير القابل للكشف أعلى منه للإنجليزي.

لا تبالغ في الاهتمام بسؤال الكشف. السؤال الحقيقي لمعظم عمليات المحتوى ليس “هل يستطيع القراء التمييز؟” بل “هل يخدم هذا المحتوى القراء جيداً؟” في اختبارنا الأعمى، تضمنت القطع الأعلى تقييماً من حيث الفائدة محتوى مُنشأً بالذكاء الاصطناعي ومحتوى مكتوباً بشرياً. ما تنبأ بالفائدة لم يكن المصدر — بل كانت جودة البريف وتحديد المعلومات وصلتها بما يحتاجه القراء فعلاً. هذه قرارات تحريرية تنطبق بالقدر ذاته على إنتاج المحتوى بالذكاء الاصطناعي وبالبشر.

ملاحظة ختامية

أجرينا هذه التجربة لأننا أردنا اتخاذ قرارات أفضل، لا للتحقق من استنتاج محدد مسبقاً. دفعتنا النتائج نحو موقف أكثر دقة مما كنا عليه: محتوى الذكاء الاصطناعي أكثر قابلية للكشف في بعض التنسيقات دون غيرها، وغرامة المصداقية على الذكاء الاصطناعي خاصة بالسياقات التي تهم فيها أصالة المصدر، وفجوة الفائدة بين المحتوى البشري ومحتوى الذكاء الاصطناعي صغيرة حين يُنتج الأخير باستثمار تحريري حقيقي.

لا يعني أي من ذلك أن محتوى الذكاء الاصطناعي دائماً بجودة أفضل ما يكتبه الإنسان. بل يعني أن السؤال “ذكاء اصطناعي أم إنسان؟” أقل فائدة من الأسئلة: “لأي تنسيق؟” و”بأي عملية تحريرية؟” و”لأي جمهور؟”

هذه هي الأسئلة التي تستحق الإجابة الصحيحة.