مقالات

1: كيفية معالجة البيانات


بشكل عام ، لا تحتاج إلى جهاز كمبيوتر لمعالجة البيانات. ومع ذلك ، فإن الإحصائيات المعاصرة "ثقيلة" وتتطلب دائمًا المساعدة الفنية من نوع ما من البرامج.


معالجة البيانات

معالجة البيانات بشكل عام ، "جمع عناصر البيانات ومعالجتها لإنتاج معلومات مفيدة." [1] وبهذا المعنى يمكن اعتبارها مجموعة فرعية من معالجة المعلومات، "تغيير (معالجة) المعلومات بأي طريقة يمكن للمراقب اكتشافها". [ملاحظة 1]

تم استخدام مصطلح معالجة البيانات (DP) أيضًا للإشارة إلى قسم داخل منظمة مسؤولة عن تشغيل تطبيقات معالجة البيانات. [2]


اليوم الثالث: اختبار الفرضية

حتى الآن ، قمنا بتخطيط وتصور البيانات بطرق مختلفة. اليوم ، سنرى كيفية إجراء نسخ احتياطي إحصائي لبعض الملاحظات التي قمنا بها عند النظر إلى بياناتنا. الإحصائيات هي أداة تساعد في فصل القصص المدعومة بالبيانات لصنع الأخبار عن الحكايات التي تحدث لمرة واحدة. عادةً ما يبدأ كلا النوعين من القصص بحدس ، وتساعدنا الإحصائيات على تحديد الأدلة التي تدعم هذا الحدس.

كلما كان لديك حدس (أ فرضية في الحديث الإحصائي) ، فإن أول شيء يجب فعله هو إلقاء نظرة على بعض الإحصائيات الموجزة (على سبيل المثال ، المتوسطات) ، واستكشاف البيانات بيانياً كما فعلنا بالأمس. إذا بدا أن التصورات تدعم حدسك ، فستنتقل إلى وضع اختبار الفرضية.


هيكل المشروع الموحد

إن مشاركة جميع المشاريع في بنية دليل واستخدام قوالب لوثائق المشروع يجعل من السهل على أعضاء الفريق العثور على معلومات حول مشاريعهم. يتم تخزين جميع التعليمات البرمجية والمستندات في نظام التحكم في الإصدار (VCS) مثل Git أو TFS أو Subversion لتمكين تعاون الفريق. يتيح تتبع المهام والميزات في نظام تتبع المشروع الرشيق مثل Jira و Rally و Azure DevOps تتبعًا أوثق للرمز للميزات الفردية. يتيح هذا التتبع أيضًا للفرق الحصول على تقديرات أفضل للتكلفة. يوصي TDSP بإنشاء مستودع منفصل لكل مشروع على VCS من أجل الإصدار وأمن المعلومات والتعاون. الهيكل الموحد لجميع المشاريع يساعد على بناء المعرفة المؤسسية عبر المنظمة.

نحن نقدم قوالب لهيكل المجلد والمستندات المطلوبة في المواقع القياسية. تنظم بنية المجلد هذه الملفات التي تحتوي على تعليمات برمجية لاستكشاف البيانات واستخراج الميزات ، وتكرار نموذج التسجيل هذا. تسهل هذه القوالب على أعضاء الفريق فهم العمل الذي قام به الآخرون وإضافة أعضاء جدد إلى الفرق. من السهل عرض قوالب المستندات وتحديثها بتنسيق تخفيض السعر. استخدم القوالب لتزويد قوائم المراجعة بالأسئلة الأساسية لكل مشروع للتأكد من أن المشكلة محددة جيدًا وأن المخرجات تلبي الجودة المتوقعة. الامثله تشمل:

  • ميثاق مشروع لتوثيق مشكلة العمل ونطاق المشروع
  • تقارير البيانات لتوثيق هيكل وإحصاءات البيانات الخام
  • تقارير نموذجية لتوثيق الميزات المشتقة
  • مقاييس أداء النموذج مثل منحنيات ROC أو MSE

يمكن استنساخ بنية الدليل من GitHub.


5 خطوات لحساب السعر لكل فاتورة

وفقًا للخبراء ، يمكن أن تتراوح تكلفة الفاتورة الورقية بين 12 دولارًا و 30 دولارًا للمعالجة بمتوسط ​​تكلفة يقارب 15 دولارًا.

بينما يمكن أن تكلف الشركات الأكبر التي لديها عملية حسابات دائنة أكثر تعقيدًا ما يقرب من 40 دولارًا لكل فاتورة. تكلفة الفواتير المؤتمتة عبر الإنترنت أقل بكثير بحوالي 3.50 دولار لكل عملية فاتورة. يمكن أن توفر الأتمتة لشركتك مئات الآلاف من الدولارات سنويًا.

معادلة حساب السعر لكل فاتورة: حساب التكلفة السنوية الإجمالية لقسم الحسابات الدائنة (عادةً إجمالي الراتب) وقسمتها على إجمالي عدد الفواتير التي تتم معالجتها سنويًا.

يمكنك الحصول على رقم أكثر دقة باتباع هذه الخطوات الخمس.

1) ضع خريطة للعملية

قد تكون هذه هي الخطوة الأصعب لأنك تحتاج إلى فهم شامل للعملية وجميع تحدياتها وعقباتها. اتبع عملية الفاتورة بأكملها بدءًا من معالجة البريد وحتى التسجيل بعد الانتهاء. سيعطيك هذا فكرة واضحة عن الوقت الذي تقضيه في إعداد الفواتير.

2) من شارك في العملية

هل تعرف عدد الأشخاص المشاركين في كل خطوة قمت بإدراجها في عملية رسم الخرائط؟ فكر في جميع المعنيين ، وليس فقط قسم الحسابات الدائنة ، ولكن كل من شارك في خطوات الترميز والموافقة. في المؤسسات الأكبر ، يمكن القيام بذلك من قبل الأشخاص في العديد من الإدارات المختلفة.

3) ينفق الوقت في كل خطوة من خطوات العملية

الآن بعد أن عرفت من يفعل ماذا ، عليك أن تفهم المدة التي يستغرقها كل عضو في الفريق لإكمال مهامه. اطلب من أعضاء الفريق تقدير الوقت الذي يقضونه في دورهم في معالجة الفاتورة.

4) مقدار الناس الذين يتقاضون رواتبهم في الساعة

الآن بعد أن عرفت من هم المتورطون وماذا يفعلون ومقدار الوقت الذي يقضونه في القيام بذلك - حان الوقت لاحتساب معدل أجورهم. قسّم تكلفة الدقيقة ، إذا كان ذلك منطقيًا أكثر من حيث المدة التي تستغرقها كل مهمة.

5) هل الرياضيات

الآن بعد أن أصبحت لديك جميع المعلومات ذات الصلة ، حان الوقت لعمل الصيغة لمعرفة التكلفة لكل فاتورة. اضرب عدد الأشخاص في مقدار الوقت المستغرق في كل مهمة براتبهم للتوصل إلى قيمة بالدولار مقابل تكلفة العملية لكل فاتورة.


إنشاء الرسوم البيانية للعملية الفرعية والارتباط بها

حاليًا ، لا تدعم ميزة مصور البيانات إنشاء عمليات فرعية من جدول Excel واحد. ومع ذلك ، يمكنك إنشاء رسومات تخطيطية متعددة باستخدام جداول مختلفة في ملف Visio واحد ، ثم ربط الأشكال كحل بديل.

في تطبيق Visio لسطح المكتب ، حدد قالب عرض مصور للبيانات ثم حدد ملف قالب بيانات Excel رابط لفتح Excel. ثم حدد يخلق لفتح قالب Visio Data Visualizer.

استخدم قالب بيانات Excel لإنشاء جداول لعملياتك وعملياتك الفرعية. ضع الجدول لكل عملية فرعية في ورقة مختلفة ثم احفظ ملف Excel.

على سبيل المثال ، الورقة 1: العملية الرئيسية ، الورقة 2: العملية الفرعية 1 ، الورقة 3: العملية الفرعية 2.

عد إلى تطبيق Visio لسطح المكتب واستخدم المعالج لاستيراد جدول العمليات الرئيسية إلى الصفحة 1 من لوحة Visio القماشية.

أسفل اللوحة ، حدد ملف + رمز لإنشاء صفحة 2. في علامة التبويب بيانات ، حدد يخلق لبدء تشغيل معالج الاستيراد مرة أخرى. اختر استيراد البيانات من الورقة التالية في مصنف Excel وأكمل الخطوات في المعالج.

استمر في إنشاء صفحات جديدة في Visio واستخدام المعالج لكل جدول من جداول بيانات العملية الفرعية التي قمت بإنشائها.

أخيرًا ، حدد الصفحة التي تحتوي على الرسم التخطيطي الرئيسي للعملية وانقر بزر الماوس الأيمن فوق شكل للارتباط بعملية فرعية. حدد ارتباط تشعبي واربطه بأي شكل في أحد الرسوم البيانية للعملية الفرعية.


3.4 تحديد العلاقات

يصور الشكل 5 LDM جزئيًا لنظام طلب عبر الإنترنت. أول شيء يجب ملاحظته هو الأساليب المختلفة المطبقة على أسماء العلاقات والأدوار - تتطلب العلاقات المختلفة مناهج مختلفة. على سبيل المثال العلاقة بين عميل و ترتيب له اسمان ، أماكن و تم وضعه بواسطة، في حين أن العلاقة بين عميل و عنوان لديه واحد. في هذا المثال ، وجود اسم ثانٍ للعلاقة ، والفكرة هي أنك تريد تحديد كيفية قراءة العلاقة في كل اتجاه ، هي زائدة عن الحاجة - من الأفضل لك العثور على صياغة واضحة لاسم علاقة واحد ، مما يقلل الفوضى في الرسم التخطيطي الخاص بك. وبالمثل ، ستجد غالبًا أنه من خلال تحديد الأدوار التي يلعبها الكيان في علاقة ما ، غالبًا ما يؤدي ذلك إلى إبطال الحاجة إلى إعطاء اسم للعلاقة (على الرغم من أن بعض أدوات CASE قد تجبرك عن غير قصد على القيام بذلك). على سبيل المثال دور عنوان وصول الفواتير والتسمية دفع ل من الواضح أنها زائدة عن الحاجة ، فأنت تحتاج حقًا واحدة فقط. على سبيل المثال الدور جزء من الذي - التي خط سلعة في علاقتها مع ترتيب واضح بما فيه الكفاية بدون اسم علاقة.

الشكل 5. نموذج بيانات منطقي (تدوين هندسة المعلومات).

تحتاج أيضًا إلى تحديد العلاقة الأساسية والاختيارية للعلاقة (تجمع UML بين مفاهيم الاختيارية والعلاقة الأساسية في مفهوم واحد للتعددية). تمثل العلاقة الأساسية مفهوم "كم" بينما تمثل الاختيارية مفهوم "ما إذا كان يجب أن يكون لديك شيء". على سبيل المثال ، لا يكفي معرفة أن العملاء يقدمون الطلبات. كم عدد الطلبات التي يمكن للعميل وضعها؟ لا شيء ، واحد أم عدة؟ علاوة على ذلك ، فإن العلاقات عبارة عن شوارع ذات اتجاهين: لا يقوم العملاء فقط بتقديم الطلبات ، ولكن يتم تقديم الطلبات من قبل العملاء. يؤدي هذا إلى أسئلة مثل: كم عدد العملاء الذين يمكن تسجيلهم في أي طلب معين وهل من الممكن الحصول على طلب بدون مشاركة أي عميل؟ يوضح الشكل 5 أن العملاء يضعون صفرًا أو أكثر من الطلبات وأن أي طلب معين يتم تقديمه بواسطة عميل واحد وعميل واحد فقط. كما يوضح أيضًا أن العميل يعيش في عنوان واحد أو أكثر وأن أي عنوان معين لا يحتوي على عملاء أو أكثر من المقيمين فيه.

على الرغم من أن UML تميز بين الأنواع المختلفة من العلاقات - الارتباطات ، والوراثة ، والتجميع ، والتكوين ، والتبعية - فإن مصممي البيانات غالبًا لا يهتمون بهذه المشكلة بقدر اهتمام مصممي الكائنات. غالبًا ما يوجد التصنيف الفرعي ، وهو أحد تطبيقات الوراثة ، في نماذج البيانات ، ومثال على ذلك هو هو العلاقة بين العنصر وهما "كيانان فرعيان" خدمة و منتج. التجميع والتكوين أقل شيوعًا ويجب عادةً ضمنيًا من نموذج البيانات ، كما ترى في ملف جزء من الدور الذي خط سلعة يأخذ مع ترتيب. عادةً ما تكون تبعيات UML عبارة عن بناء برمجي ، وبالتالي لن تظهر في نموذج البيانات ، ما لم يكن بالطبع نموذجًا ماديًا شديد التفصيل يوضح كيف تعتمد طرق العرض أو المشغلات أو الإجراءات المخزنة على جوانب أخرى من مخطط قاعدة البيانات.


بيانات الاستيراد

1. افتح جدول بيانات Excel فارغًا واستخدم الإرشادات من "تلميحات Excel الاحترافية: استيراد البيانات وتحليلها". لاحظ أن جميع المعلومات يتم استيرادها في حقل واحد ، لذلك يجب عليك تحليل البيانات لتقسيم هذه السلسلة النصية إلى حقول منفصلة. لاحظ أن تحليل البيانات المستخدمة في المقالة المرجعية كان في غاية السهولة لأن كل حقل يحتوي على سجلات متشابهة.

2. على سبيل المثال ، سنقوم فقط بإدخال عشرات السجلات ، والتي يمكنك تعديلها يدويًا في بضع دقائق. لكن التقنية التي سأعرضها لكم ستعمل على تحرير آلاف التسجيلات. ملاحظة: بالنسبة لبقية هذه المقالة ، فلنفترض أن جدول البيانات يحتوي على 1000 سجل. الحقول لقاعدة البيانات هذه هي الاسم ، والعنوان ، وموقع الفرع ، والمدينة ، والولاية التي تتكون من خمسة أعمدة (أو حقول).

تم استيراد جميع الحقول الستة في عمود واحد


عملية بواسون

يمكن استخدام عملية Poisson لنمذجة عدد مرات حدوث الأحداث ، مثل وصول المرضى إلى غرفة الطوارئ ، خلال فترة زمنية معينة ، مثل 24 ساعة ، بافتراض أن المرء يعرف متوسط ​​حدوث تلك الأحداث خلال فترة زمنية معينة. على سبيل المثال ، يدخل ما معدله 10 مرضى إلى غرفة الطوارئ في الساعة.

تتميز عملية بواسون بالخصائص التالية:

  1. يتكون من سلسلة من المتغيرات العشوائية X1، X2، X3،… Xk بحيث يمثل كل متغير عدد مرات حدوث بعض الأحداث ، مثل دخول المرضى إلى غرفة الطوارئ ، خلال فترة زمنية معينة.
  2. إنها عملية عشوائية. في كل مرة تقوم فيها بتشغيل عملية Poisson ، ستنتج سلسلة مختلفة من النتائج العشوائية وفقًا لبعض توزيع الاحتمالات الذي سنراه قريبًا.
  3. إنها عملية منفصلة. نتائج عملية بواسون هي عدد مرات الحدوث لحدث ما في فترة زمنية محددة ، وهو بلا شك عدد صحيح - أي. رقم منفصل.
  4. لها زيادات مستقلة. ما يعنيه هذا هو أن عدد الأحداث التي تتوقع العملية حدوثها في أي فترة زمنية معينة ، مستقل عن الرقم في أي فاصل زمني منفصل آخر. على سبيل المثال عدد الأشخاص الذين يدخلون غرفة الطوارئ من الوقت صفر (بداية الملاحظة) حتى الساعة 10 صباحًا ، مستقل عن الرقم الذي يسير من 3:33 مساءً إلى 8:26 مساءً ، أو من 11:00 مساءً إلى 11:05 مساءً وما إلى ذلك.
  5. المتغيرات المكونة لعملية بواسون X1، X2، X3،… Xkالكل يملك توزيع متطابق.
  6. المتغيرات المكونة لعملية بواسون X1، X2، X3،… Xkكل لديهم توزيع السم، والتي يتم تقديمها بواسطة صقابلية مالحمار Fمسحة:

تعطينا الصيغة أعلاه احتمال حدوث ك الأحداث في وقت الوحدة، بالنظر إلى أن متوسط ​​معدل الحدوث هو λ الأحداث لكل وحدة زمنية.

تُظهر المخططات الأربعة التالية شكل PMF لقيم مختلفة لـ λ:

في كل مخطط ، يمكنك أن ترى أن الاحتمال يبلغ ذروته عند القيمة المقابلة لـ λ ، وتتناقص تدريجيًا على جانبي هذه القيمة.

في كل مخطط ، مجموع الاحتمالات لجميع القيم الممكنة لـ ك هو دائمًا 1.0 ، أي أنه من المؤكد أن إحدى النتائج ستتحقق.

دعونا نلقي نظرة فاحصة على الموقف عندما λ = 5. في مثالنا ، هذا يتوافق مع وصول خمسة مرضى في الساعة. احتمال 0،1 ، 2 ، 3 ، ... ، 10 ، 11 ، ... إلخ. دخول المرضى إلى غرفة الطوارئ في ساعة واحدة يشبه هذا:

كما ترى قمم الاحتمالات عند k = 5.

لمعرفة احتمالية ك المرضى المشي في ER في ر ساعات، نصممها على أنها عملية بواسون بمعدل (λر).الصيغة المقابلة ل PMF لحدوث k في الوقت t يشبه هذا:

تم إنشاء المجموعة التالية من التوزيعات الاحتمالية باستخدام صيغة توزيع Poisson أعلاه عن طريق قياس المعدل λ بفاصل زمني مختلف ر:


نُشر في 15 سبتمبر 2014

المنظمات من جميع المشارب والأشكال والأحجام تغرق في موجة مد وجزر من البيانات.

عندما تنظر إلى مقدار توسّع البيانات الضخمة ، يمكن أن يكون ذلك مقلقًا. على سبيل المثال ، تتلقى Google أكثر من مليوني استعلام بحث كل دقيقة. على نطاق أوسع ، ينتج البشر حاليًا ما يقدر بـ 2.5 كوينتيليون بايت من البيانات كل يوم.

إليك طريقة واحدة لإلقاء نظرة على هذا الإحصاء: تم إنشاء 90 بالمائة من بيانات العالم في العامين الماضيين فقط. صعود العديد من المصادر - من وسائل التواصل الاجتماعي إلى الويب إلى الاستخدام الموسع لأجهزة الاستشعار - يجعل من الصعب على المؤسسات فهم البيانات. عند حدوث ذلك ، يكاد يكون من المستحيل ترجمة المعلومات إلى شيء قابل للتنفيذ يوفر عائدًا ملموسًا على الاستثمار (ROI).

لحسن الحظ ، يساعد ظهور عروض البيانات المرئية أو تصور البيانات في تلبية هذه الحاجة.

يعمل التصور من منظور بشري لأننا نستجيب للبيانات المرئية ونعالجها بشكل أفضل من أي نوع آخر من البيانات. في الواقع ، يعالج الدماغ البشري الصور أسرع بـ 60.000 مرة من النص ، و 90٪ من المعلومات المنقولة إلى الدماغ هي بصرية. نظرًا لأننا مرئيون بطبيعتنا ، يمكننا استخدام هذه المهارة لتحسين معالجة البيانات والفعالية التنظيمية.

تتعامل الشركات مع بيانات شديدة التعقيد ، ذات علاقات متعددة الأبعاد عبر العديد من مجموعات البيانات الضخمة المختلفة. يمكن أن تشمل هذه المبيعات ، ومواقع المواقع ، والتركيبة السكانية ، والطرق ، والعروض الترويجية - كل مجموعة من البيانات المعقدة الخاصة بها.

والخبر السار هو أن كل هذه البيانات جغرافية مكانية ويمكن عرضها بطرق مرئية. يمكن تحرير البيانات من الإدارات المختلفة من الصوامع الخاصة بها وإنشاء اتخاذ قرارات أكثر سرعة ودقة. بالإضافة إلى ذلك ، تسهل المعلومات المرئية التعاون وتوليد أفكار جديدة تؤثر على الأداء التنظيمي.

البشر مخلوقات بصرية. على هذا النحو ، فإن الوقت مناسب للمؤسسات لتنفيذ حلول جديدة للاستفادة من تصور البيانات وإطلاق العنان لإمكانياتها الحقيقية لتحقيق أهداف العمل والمهمة.

- هاريس أيزنبرغ ، نائب الرئيس التنفيذي

العلوم الحرارية + التكنولوجيا
1911 إن فورت ماير د. جناح 700
أرلينغتون ، فيرجينيا 22209
703-740-8768


# 2 قارن Cp بـ Cpk

يشبه Cp Cpk من حيث أنه كلما قل الرقم ، كانت العملية أسوأ ، ويمكننا استخدام نفس المعيار الذهبي 1.33. ومع ذلك ، تختلف الإحصائيتان والصيغ المقابلة لهما في أن Cp يقارن فقط انتشار البيانات بعرض التفاوت ، ويفعل ليس حساب ما إذا كانت العملية تتمحور بالفعل بين حدود المواصفات أم لا.

يشبه تفسير Cp إلى حد كبير السؤال "هل تناسب سيارتي المرآب؟" حيث البيانات هي سيارتك وحدود المواصفات هي جدران المرآب الخاص بك. نحن لا نأخذ في الحسبان ما إذا كنت سائقًا سيئًا أم لا ويمكنك بالفعل القيادة بشكل مستقيم ووضع السيارة في المنتصف - نحن ننظر فقط إلى ما إذا كانت سيارتك ضيقة بما يكفي لتناسبها جسديًا أم لا.

مثال 1: تحليل Diameter1 له Cp 1.64 ، وهو أمر جيد جدًا. نظرًا لأن Cp جيدة ، فنحن نعلم أن الاختلاف مقبول - يمكننا تركيب سيارتنا في المرآب. ومع ذلك ، فإن Cpk ، التي تحسب لمعرفة ما إذا كانت العملية تتمحور أم لا ، هي سيى، عند 0.35 فقط.

ج: قم بتحويل الوسيلة لتوسيط العملية بين المواصفات ، دون زيادة التباين.

المثال 2: يوضح تحليل Diameter 2 أن Cp = 0.43 و Cpk = 0.41. نظرًا لأن Cp سيء ، فإننا نعلم أن هناك الكثير من الاختلاف - لا يمكن لسيارتنا وضعها في المرآب. ولأن قيمتي Cp و Cpk متشابهة ، فهذا يخبرنا أن العملية تتمركز إلى حد ما.

ج: قلل التباين مع الحفاظ على نفس المتوسط.

المثال 3: تحليل القطر 3 له Cp = 0.43 و Cpk = -0.23. لأن Cp سيء ، نعلم أن هناك الكثير من الاختلاف. ونظرًا لأن Cp ليست قريبة من Cpk ، فنحن نعلم أن العملية أيضًا خارج المركز.

A. قم بتحويل المتوسط ​​وتقليل التباين.


شاهد الفيديو: الدرس 1: كيفية إدخال البيانات عبر إيفيوز #EViews (شهر نوفمبر 2021).