Forschungsberichte
Permanent URI for this collection
Browse
Recent Submissions
Item Classification Method Performance in High Dimensions(2018-04-13) Weihs, Claus; Kassner, TobiasWe discuss standard classification methods for high-dimensional data and a small number of observations. By means of designed simulations illustrating the practical relevance of theoretical results we show that in the 2-class case the following rules of thumb should be followed in such a situation to avoid the worst error rate, namely the probability π1 of the smaller class: Avoid “complicated” classifiers: The independence rule (ir) might be adequate, the support vector machine (svm) should only be considered as an expensive alternative, which is additionally sensitive to noise factors. From the outset, look for stochastically independent dimensions and balanced classes. Only take into account features which influence class separation sufficiently. Variable selection might help, though filters might be too rough. Compare your result with the result of the data independent rule “Always predict the larger class”.Item Arbeitszeiten von Professorinnen und Professoren in Deutschland 2016(2018-02) Weihs, Claus; Hernández Rodríguez, Tanja; Doeckel, Maximilian; Marty, Christoph; Wormer, HolgerIn dieser Studie werden belastbare Prognoseintervalle der wöchentlichen Gesamtarbeitszeit von Universitätsprofessorinnen und -professoren aus Daten einer Umfrage aus dem Jahre 2016 und a-priori Informationen aus früheren Studien bestimmt. Neben der Gesamtarbeitszeit werden auch Teilarbeitszeiten zum Beispiel für Lehre und Forschung ermittelt. Die Ergebnisse von frequentistischer und Bayesianischer Analyse werden verglichen. Aus den gültigen Fragebögen von aktiven Vollzeit arbeitenden Universitätsprofessorinnen und -professoren ergeben sich bei der direkten Schätzung 56 h für die durchschnittliche wöchentliche Gesamtarbeitszeit und 95%-Prognoseintervalle von 35 h bis 80 h. Frequentistische und Bayesianische Analyse führen zu ähnlichen Ergebnissen, Fächergruppen und Geschlechter unterscheiden sich wenig. Wird die Gesamtarbeitszeit als Summe der Arbeitszeiten für Teilaufgaben geschätzt, führt dies zu einem wesentlich größeren Mittelwert von 63 h und deutlich unterschiedlichen 95%-Prognoseintervallen im Bayesianischen Fall mit [42 , 85] h und im frequentistischen Fall mit [28 , 113] h. Messungen für die Gesamtarbeitszeit aus unabhängig voneinander ermittelten Teilarbeitszeiten erscheinen deshalb nur verlässlich, wenn eine Bayesianische Analyse mit Vorinformationen über die Gesamtarbeitszeit durchgeführt wird, denn offenbar sind Summen von Teilarbeitszeiten tendenziell größer als eine Gesamtarbeitszeitschätzung, sowohl im Mittel als auch in der Variation. Ein möglicher Grund ist die fehlende Übersicht über die insgesamt angegebene Arbeitszeit, wenn kein Summenzähler während des Ausfüllens des Fragebogens mitgeführt wird. Der Anteil forschungsnaher Tätigkeiten an der Arbeitszeit erscheint mit etwa 60% deutlich höher als der Anteil von Lehre und Betreuung und Prüfung von Studierenden mit 23% und der Anteil administrativer Tätigkeiten mit 17%. Die größten signifikanten Differenzen in den Erwartungswerten der Fächergruppen treten immer zwischen den Geistes-/Sozialwissenschaften und einer der anderen Fächergruppen auf, sowohl bei der Gesamtarbeitszeit als auch bei Teilarbeitszeiten. Der Unterschied zwischen dem erwarteten Gesamtarbeitsaufwand von Professorinnen und Professoren ist eher klein.