• [KA1] Es ist machbar, dass Plug-ins für sie semantisch zu ungenaue Inhalte herausfiltern.
    • +1+1+1
    • -1-1 (könnt ihr das begründen bzw. noch besser: Beispiele nennen?)
    • +-0,  das bürdet den Plugins viel zusätzliche Arbeit auf. Die meisten Plugins  werden strukturierte Diskussionen unerschiedlich abbilden wollen und  unstrukturierte Infos ignorieren -> man lässt sie besser gleich weg.  Andererseits wird es immer Plugins geben die schlecht/gar nicht/anders  strukturieren. Eine Filterung ist auf lange Sicht also unumgänglich.+1
      • empfinde ich als guten Kompromiss - also hohe Priorität auf einfache Filtermöglichkeiten für die Plugins?+1
    • -1  Das geht nur dann, wenn alle integrierten Diskussionssysteme den Inhalt  blocken; wenn nur ein einziges durchschaltet, spült es die Inhalte in  den Kreislauf der Diskussionssysteme rein, die von den anderen   integrierten Diskussionssystemen unerwünscht sind
      • Auch  das integrierende Diskussionssystem kann dazu beitragen die 'Qualität'   der importierten Daten zu erhöhen. Das ist das Ziel. Tut es das nicht,  sondern leitet die qualitativ niederwertigen Diskussionsdaten einfach   nur durch, dann wird es bald auch einen Filter der anderen Tools auf  das  'einschleusende' Tool geben.
      • Klar,  das passiert auch informell - beispielsweise spontanes Copy &  paste  aus seinen eigenen E-Mails und Tweets raus - das gehört aber  nicht strukturell auch noch gefördert
      • Ein "Durchspülen" schlechter Daten kann im Normalfall nicht vorkommen:
        • Wenn  das Problem der unstrukturierten Daten in fehlender Struktur (=  Semantik) liegt, dann wird das Problem doch durch Hinzufügen dieser  Semantik gelöst.
          • Verschiedene Plugins benötigen unterschiedlich viel von der Semantik.
            • Ja. Jedes System nutzt die Inhalte, die seinen Semantikstandards entsprechen. Das verstehe ich unter "Filtern".
              • Die  Frage ist halt wo und anhand welcher Merkmale gefiltert wird. mMn  sollte das Plugin nicht die Volle Datenmenge abkriegen, wenn es schon  weiß, dass nur 2 bestimmte Plattformen interessant sind.
                • 1. bin ich auch dafür, dass der Server, der die Daten speichert, umfangreiche Filterfunktionen hat [KA11].+1
                • 2.  Das wäre wie gesagt ein Spezialfall, auch wenn es doch eigentlich  sinnvoller wäre, Posts nach ihrer Semantik (ihren sicheren, bekannten  Merkmalen) statt nach ihrer Herkunft zu beurteilen.
                • In  der Theorie ja, aber praktisch halte ich das für zu optimistisch. Es  wird immer Grauzonen geben in der Ontologie oder ihrer Verwendung.+1
                • Was  gefiltert wird, ist ja sowieso den Tools überlassen - es ist natürlich  schon sinnvoll, immer noch die "Notbremse" Herkunft in der Tasche zu  haben. Hast da Recht.
                • Ohne Herkunftsfilter von Anfang an reicht ein einziges Plugin das Twitter rüberleitet dür einen kompletten d!sco DOS.
                • Siehe  1.: Der Server, der die Daten speichert, zumindest im P2P wäre das hier  Twitter, muss die Daten auch filtern. Höchstens dieser wird einen DOS  erleben. Weil Twitter recht wenig Semantik hat, würden die Inhalte oft  herausgefiltert. So gibt es in Twitter keine Topics. (Unsere Diskussion  können wir ja später wieder löschen ;) (+1) )
                • Die Inhalte müssen aber erstmal bis zum Filter kommen.
                • Nein! Das Plugin sagt dem Server (hier Twitter), was dieser filtern soll, und der tut es. So grob. In Wirklichkeit brauchen wir ein Protokoll.
                • Achso du meinst schon dass jedes Plugin nen Server hat? Nur wer von Twitter Daten anfordert kann überhaupt den Schwall kriegen?
                • Sogar nur der, der von Twitter Daten ohne Filterung anfordert. (Wir können natürlich auch Plattformen auf unserem Server  hosten, aber müssen nicht die dort reinlassen, die uns zu viel Daten  produzieren. Die brauchen dann halt nen eigenen Server.)
                • Ader das impliziert doch schon die von mir geforderte Filterung nach Herkunft? Also wenn es nicht auf unseren Server kommt.
                • Nö:  Im P2P hast du zunächst mal Kontakt zu allen Servern, die nicht  geblacklistet wurden. An alle diese Server schickst du die gleiche  Filterabfrage.
                • Dann schicke ich halt nur an 2, statt an alle?
                • Kannst  du, wenn du willst, aber ich persönlich würde für ein offenes d!sco  mein Plugin per Opt-out mit den anderen Plugins verbinden.
                • Wäre  mir zu riskant, da ich die Daten ja automatisch in die eigene Datenbank  übernehme (evtl. nach Aufbereitung) Das wird lustig aufzuräumen ;-)
                • Aber mir reicht ja, dass ich die Möglichkeit habe nur 2 zu fragen. Mehr wollte ich gar nicht ^^
                • Nein,  du musst sie nicht übernehmen. Ich dachte, dass du die Daten von den  Datenbanken der entsprechenden Server abfragst und nicht bei dir  speicherst. Wenn du also einen Server blacklistest, dann verschwinden  "rückwirkend" alle Inhalte dessen. (Kannst du auf deinem Server  natürlich auch anders machen.)
                • Ah  jetzt verstehe ich die Grundlage des Missverständnisses. Solange die  Plugins nur einen reinen View anbieten ist das natürlich kein Problem.
                • Was meinst du mit View?Na dass das Plugin die Daten von den Anderen Servern quasi live anzeigt ohne eine Eigene Datenbank damit zu füllen. correcto :) Kommunikation ist was Kompliziertes...
                • Nun ich gehe davon aus, dass ich eine eigene Datenbank brauchen werde für allerlei Bonusinfos. ;-)
                • Also Daten, die nur dein System braucht?Genau, und wenn ich die für die komplette Twitter Datenbank anlege hab ich ein Problem... sogar wenn es nur temporär ist.
                • Stimmt  auf den ersten Blick. Aber du wirst doch nur Datensätze für  Twitter-Posts anlegen, die du nicht herausgefiltert hat. Was ja, wie  gesagt, die Datenmenge beschränken könnte.
                • Auch wenn ich die komlette Twitter Datenbank filtern will habe ich ein Problem. Das macht doch Twitter für dich! [KA11]
                • Semantisch ja ... Inhaltlich nein. Und semantisch ist nicht viel Unterschied zwischen Twitter Posts.
                • Twitter-Posts haben wenig Semantik, so zum Beispiel kein zugeordnetes Topic.Jup Das ist hier das Kriterium. Würde ich sagen.
                • Also  habe ich gar keine Chance Twitter als Datenquelle zu nutzen. Entweder  sind die Posts alle rausgefiltert (kein Topic z.B.) Oder mein Server  stirbt ;)
                • Oh,  stimmt auch. Aber meistens liegt's ja dazwischen. Wenn dir die  Twitterdaten alle zu roh sind, ist's doch super, dass sie nicht durch  den Filter kommen. Und sonst, wenn sie zu deiner Plattform passen (auch  Kriterien wie "ist Antwort auf anderen Post" oder "hat Länge unter 1000  Zeichen" ist eine Filtermöglichkeit), kannst du dich über so viele  passende Beiträge freuen :o) Trifft auf die hälfte von Twitter ;)^^
                • Ich  denke das Problem ist, dass die Twitter Problematik auf alle  Unstrukturierten Quellen zutrifft. Also würde ich die alle rausfiltern  oder nen Serverzusammenbruch haben.
                • Aber  so wird es doch bleiben: Plattformen sollen sich nicht an d!sco  anpassen. Also liegt es an den Toolentwicklern zu entscheiden, was die  Kriterien für die Posts sind. Hier wird's sicher auch eine Evolution (sry) geben. Kann sein, dass Twitter dann isoliert dasteht :-D:D,  aber es wurde nicht technisch von d!sco ausgeschlossen. Vielleicht baut  es, wenn es besser integriert werden will, ja ein bisschen Semantik  ein...
                • Damit  ist Twitter doch defacto technisch ausgeschlossen. Niemand kann es als  Datenquelle nutzen, außer sein Server ist auch so gewaltig.
                • Mit  technisch meinte ich, dass es von uns automatisch nicht auf d!sco  zugreifen kann. Die genannte Methode würde Plattformen nicht willkürlich  ausschließen, sondern dann, wenn sie von allen anderen Entwicklern als  unbrauchbar gesehen werden. (Es reicht ein Tool, das Semantik anfügt.)
                • Jippieh, wir kommen uns näher...
                • Also  wenn man konsequent ein Interface definieren würde und auf die zentrale  Datenbank (egal ob P2P) verzichtet dann könnte man twitter nach allen  "posts" fragen die "Pirat" enthalten udn Antwort auf irgendwas sind.
                • So  zum Beispiel. Wenn Twitter an der Teilnahme an d!sco interessiert ist  und die Filtermöglichkeiten zur Verfügung stellt - sich also nicht  selbst abschottet.
                • Das könnte ja problemlos ein dritter machen, Twitter API sit verfügbar.
                • Stimmt, gute Idee - er müsste halt die Datenmengen in Kauf nehmen (außer, die Filtermöglichkeiten sind in der API vorhanden)
                • Kann er halt nciht all d!sco Filter anbieten.
                • Stimmt. Dann werden die Inhalte eben nur von Plattformen angezeigt, die die fehlenden Filter nicht brauchen.
                • Sind wir uns einig?
                • Hmmm bin mir noch nciht so sicher wie du dir vorstellst, dass die Anfragen an alle geschickt werden. 
                • Du hast 'ne Liste mit allen Servern, die dir bekannt sind (abzüglich den geblacklisteten) und schickst die Anfrage an alle die.
                • Ok  dachte ich schick sie ans P2P oder an unseren d!sco server und der  verteilt dann. Solange ich selber an beliebige Server was schicken kann  bin ich wie gesagt völlig zufrieden :-D Ich auch :-D Freiheit...
                • Also wenn, dann interessieren einen doch ohnehin nur seine eigenen Posts; wenn alles von Twitter zu Thema X abgezogen wird, würde in d!sco praktisch jeder nur nach seinen eigenen Posts suchen; wo ist da die Verhältnismäßigkeit Datenmenge-Nutzen ?
                • Ich erwarte eher, dass ein zusammenhängender Diskussionsstrang von Twitter ins Tool importiert werden soll. Auch hier ist natürlich sehr viel weniger als die gesamte Twitter Datenbasis interessant.
                • Sehe beim Twitter Beispiel keine automatische Möglichkeit => Copy&Paste wäre hier besser.